一个数据的走势是由多个维度影响的,我们需要通过多源的数据采集,手机到尽可能多的数据维度,同时保证数据的质量,这样才能得到高质量的数据挖掘结果
数据源可分为以下四类:
开放数据源:政府、企业、高校
爬虫抓取:网页、app
日志采集:前端采集、后端脚本
传感器:图像、测速、热敏
如何使用爬虫做抓取:
爬虫抓取属于最常见的需求,最直接的方法是使用python编写爬虫代码。
在python 爬虫中,基本上会经历三个过程:
- 使用requests 爬取内容,使用Requests 库来爬取网页信息,Requests 库是python 爬虫的利器,也是python的http库,通过这个库爬取网页的数据,非常方便
- 使用XPath 解析内容。XPath 是XML Path 的缩写。它是用来确定XML文档中某部分位置的预言,在开发中常用作小型查询预言。
- 使用Pandas 保存数据。Pandas是让数据分析工作变得简单高效的高级数据结构,我们可以用Pandas保存爬取的数据。最后通过Pandas再写入XLS 或者Mysql等数据库中。
三款常用的抓取工具
火车采集器:老牌采集器,不仅可以做抓取工具,也可以做数据清洗、数据分析、数据挖掘和可视化。数据源适合绝大多数网页。
八爪鱼:有付费版和免费版,可以自动切换ip。
集搜客:特点是完全可视化,无需编程,整个采集过程所见即所得