数据分析
willsgao
这个作者很懒,什么都没留下…
展开
-
267019条猫眼数据加持,原来你是这样的《流浪地球》——python数据分析全流程代码实现!
2019年春节档,《流浪地球》横空出世,在强势口碑加持下,上映两周多票房即突破40亿! 与之相随的主题也霸占了春节期间的话题榜。 作为一部现象级的电影,笔者也很感兴趣,特意爬取了2月5日(初一)至2月12日(初八) 267019条猫眼影评,多角度可视化分析了《流浪地球》的数据规律。 接下来,跟我看看这267019人究竟说了什么吧!数据分析准备工作整个数据分析分为数据爬取、数据清洗、数据可视化...原创 2019-02-20 21:02:39 · 1146 阅读 · 0 评论 -
如何有效地进行文本分类——数据预处理
数据预处理机器学习中,最为基础也是最为耗时的一项工作就是数据预处理。如何将海量数据进行预处理,进而得到数据处理和机器学习阶段所需要的有效素材是一项非常重要的工作。此文将以海量新闻xml原始数据处理为例,展示如何有效第进行数据预处理工作。原始数据特征该数据来源于“搜狗实验室数据库”的“全网新闻数据”http://www.sogou.com/labs/resource/cs.php该数...原创 2019-03-04 21:16:14 · 8091 阅读 · 2 评论 -
目标文本数据提取处理加速器——正则表达式
文本筛选案例——(部分)地方政府年终报告关键信息提取从模式化的文档中提取目标关键信息是一个重复性很高、劳动量很大的工作,而这类工作正是数据分析工具一展风采的地方。比如说从模式化的政府年终报告文档中提取诸如:GDP总量、GDP增长率、第一产业/第二产业/第三产业GDP…等。如下图所示:如果提取几份文档,人工完全可以胜任;可是如果是提取全国地方政府的信息,那么工作量无疑是个天文数字。然而,只...原创 2019-03-16 17:22:50 · 410 阅读 · 0 评论