在数据分析中从获取数据到最后的完成数据分析报告,你要是问一个从事数据分析的人哪里最麻烦最费时间,十个里面有九个会回答你:清洗数据。
在清洗数据流程中,绝大多数分析师都会使用Python和R来处理,那如果还没有掌握Python和R的人呢?
事实上Excel和Mysql之类的工具也是可以的,Excel对于大一点的文件处理的较为吃力。其实我们日常用来处理统计数据的Mysql也可以进行数据清洗的工作,接下来我就用完之前做的关于什么值得买跑鞋板块的数据分析为例来简单介绍一下怎么用Mysql进行数据清洗。
一、首先爬取网页上的数据
这方面我推荐一下我的朋友 @陈大欣零基础如何学爬虫技术?www.zhihu.com
介绍的Web Scraper工具,可以轻松让没有编程基础的小白爬取95%以上的网页上的内容。
首先分析一下页面,我们需要爬取哪些内容:跑鞋的品牌、型号
爆料分类
价格
值、不值、收藏和评论数
爆料时间
卖家
爆料人
具体爬取过程不表
二、预览分析数据
看起来好像很正常,点开仔细看一下。
标题部分被整个抓下来了,其中我们需要的分类、品牌和价格都在一个单元格里面,需要