数据采集：如何自动化采集数据

最新推荐文章于 2022-08-03 11:14:04 发布

lvweishuai001

最新推荐文章于 2022-08-03 11:14:04 发布

阅读量2.6k

点赞数 1

分类专栏：数据挖掘

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/lvweishuai001/article/details/89249865

版权

数据挖掘专栏收录该内容

5 篇文章 0 订阅

订阅专栏

一个数据的走势是由多个维度影响的，我们需要通过多源的数据采集，手机到尽可能多的数据维度，同时保证数据的质量，这样才能得到高质量的数据挖掘结果

数据源可分为以下四类：

开放数据源：政府、企业、高校

爬虫抓取：网页、app

日志采集：前端采集、后端脚本

传感器：图像、测速、热敏

如何使用爬虫做抓取：

爬虫抓取属于最常见的需求，最直接的方法是使用python编写爬虫代码。
在python 爬虫中，基本上会经历三个过程：

使用requests 爬取内容，使用Requests 库来爬取网页信息，Requests 库是python 爬虫的利器，也是python的http库，通过这个库爬取网页的数据，非常方便
使用XPath 解析内容。XPath 是XML Path 的缩写。它是用来确定XML文档中某部分位置的预言，在开发中常用作小型查询预言。
使用Pandas 保存数据。Pandas是让数据分析工作变得简单高效的高级数据结构，我们可以用Pandas保存爬取的数据。最后通过Pandas再写入XLS 或者Mysql等数据库中。

三款常用的抓取工具

火车采集器：老牌采集器，不仅可以做抓取工具，也可以做数据清洗、数据分析、数据挖掘和可视化。数据源适合绝大多数网页。

八爪鱼：有付费版和免费版，可以自动切换ip。

集搜客：特点是完全可视化，无需编程，整个采集过程所见即所得

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
数据采集：如何自动化采集数据

一个数据的走势是由多个维度影响的，我们需要通过多源的数据采集，手机到尽可能多的数据维度，同时保证数据的质量，这样才能得到高质量的数据挖掘结果数据源可分为以下四类：开放数据源：政府、企业、高校爬虫抓取：网页、app日志采集：前端采集、后端脚本传感器：图像、测速、热敏如何使用爬虫做抓取：爬虫抓取属于最常见的需求，最直接的方法是使用python编写爬虫代码。在python 爬虫中，基本上...
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。