BaideS-CSDN博客

原创智搜Giiso写作机器人调研

1. 背景公司因汽车相关内容创作的需求，故需先调研写作机器人，此处使用的是智搜Giiso写作机器人。因保密需要，故不提及具体的需求。2. Giiso调研结论只能写车型介绍，车型对比两种稿件，无法满足公司需求。是一个辅助文章写作的工作，无法独立生成可过查重的文章，其生成的文章是从素材库中直接截取或少量删选的，需要人工修改。辅助的功能主要体现在提供词句和图片素材。词句是从素材库中直接截取或少量更改的，不可直接使用，否则重复率极高。图片是直接从素材库中获取的。3. Giiso主要功能3.1. 稿

2020-09-16 09:08:58 2739

原创数据分析报告的通用结构

根据阅读《数据分析师养成宝典》及个人理解后所得。完成一份数据分析报告的整个流程：明确业务目标；数据准备；数据指标与分析；撰写分析报告；明确业务目标了解必须的业务信息，明确问题类型，因为不同的问题类型，要解决的问题不同。问题类型必解决的问题可延伸的问题描述类发生了什么事无因果类发生了什么事，为什么会发生无预测类发生了什么事，未来会如何发展为什么会发生咨询类发生了什么事，该如何应对为什么会发生，未来会如何发展数据准备目标是识别出

2020-09-15 22:27:59 3800

原创 Ubuntu16.04安装Mysql5.7及开启log-bin

1. Mysql的安装及开启log-bin1.1. Mysql的安装Mysql的安装可采用apt-get，安装很简单。来源：https://blog.csdn.net/weixin_42209572/article/details/98983741安装Mysql：更新软件源：apt-get update安装Mysql：apt-get install mysql-server安装期间会要求为root填些密码，填写即可；启动和关闭Mysql：启动：service mysql s

2020-09-15 22:27:29 482

原创 FineReport10.0功能说明

1. 背景说明公司希望找一款BI产品，功能全面，自由程度高，能嵌入小程序和公司系统，且价格适中，最终确定下来的是FineReport，主要考虑的方面如下：能否嵌入微信小程序和PC Web端？如何嵌入？数据安全性如何控制？数据权限如何控制？数据展示的具体功能及效果？顺便提及试用FineReport时遇到的一些问题。2. 能否嵌入微信小程序和PC Web端？如何嵌入？报表可以嵌入微信小程序和PC Web端中，嵌入的方法是使用报表发布后生成的Url嵌入到iframe内。额外的知识点：Fi

2020-09-15 22:27:03 2905

原创 Spark和数据库时间戳相差14小时

最近在用PySpark做ETL，然后发现了Spark存在的时区问题。Mysql的时区默认是CST格式，但是Spark默认的是GMT格式，因此直接使用Spark读取Mysql的时间时，会被转为GMT格式，对于这个问题，只需要设置spark.sql.session.timeZone为CST就可以解决了，但由此由引发了一个新的问题。当两者都是CST的时候，将时间转为yyyy-MM-dd hh:mm:ss来看时，两者是相同的，问题在于分别使用unix_timestamp转为时间戳的时候，两个时间戳之间会相差1

2020-09-13 16:31:05 2063 3

原创 Pyspark DataFrame DSL基本使用

基本使用说明创建DataFrame的通用前提及方法；创建SparkSession的实例；SS的实例再创建DataFrame；操作DataFrame的两种方式；类pandas方法；类SQL方法；简单的性能优化；写好脚本后，如何提交；用spark-submit提交的方法；DataFrame的一些细节获取DataFrame的通用前提及方法创建SparkSession必须先创建SparkSession，再通过SparkSession来得到一个或多个DataFrame

2020-09-13 15:09:55 960

原创 Spark基本使用-DataFrame

基本使用说明Spark是一个计算框架，其最简单的对数据的处理方法是对DataFrame，虽然功能有限，但是对于非特大的数据量，也基本上够用了，故此处记录DataFrame的处理方法；创建DataFrame的通用前提及方法；创建SparkSession的实例；由SparkSession的实例去创建DataFrame；操作DataFrame的两种方式；类pandas方法；类SQL方法；简单的性能优化；写好脚本后，如何提交；用spark-submit提交的方法；创建Da

2020-09-03 19:19:51 1298

原创开启不了Jupyter Notebook的检查方法

昨天在整理文件目录，手贱删除了Jupyter Notebook默认读取的文件夹，导致今天启动Jupyter一直失败，又因为启动Jupyter的黑色窗口在发现出错后，会直接消失，让人无法阅读到出错的原因，故百度了一下处理的方法，先记录在下，此种方法可以将黑色窗口内的报错信息输出，之后请根据输出的报错原因更正即可正常启动Jupyter：1. 开始 → Anaconda →Anaconda Prompt；2. 输入jupyter notebook，此时会出现报错信息，解决报错的问题即可；...

2020-08-29 10:22:26 455

原创 Ubuntu16.04 Spark2.7.7伪分布式从零开始部署

因工作上的需要，尝试在一台Ubuntu16.04部署Spark，因为之前没有了解过Spark，故踩坑时部署了Local版和Standalone单机伪分布式版，现记录如下。因为在部署Spark之前并未明确出Spark是什么，踩了相应的坑，故在此一并说明：Spark的目标是做一个分布式计算框架，因为是分布式所以它需要通讯（故需要安装SSH），有因为只是一个计算框架，所以其分布式数据来源需要由Hadoop的HDFS提供（故需要安装Hadoop），缺少SSH和HDFS，哪怕跑通，也是Local版。1. Spar

2020-08-28 17:14:01 476

原创 QuickBI调研

因为公司最近在搭建BI系统，故调研了一下QuickBI，发现QuickBI在使用上存在两个问题：跟需求不符合：要让报表达到千人千面，要么配置千张报表，要么得注册阿里云账户，但是我司需求是要做到无需注册阿里云账户，当然，配置千张报表也是同样不可能的；QuickBI产品的重大缺陷：使用QuickBI制作报表的流程分为"…→创建数据集→制作报表→…"，不管是字段的类型，还是字段是属于维度还是度量，都必须在"创建数据集"阶段中定义好，那么就会存在一些情况，当你制作报表时，做了好几张图了，后面发现有

2020-08-27 15:37:13 659