博文配套视频课程:24小时实现从零到AI人工智能
什么是爬虫
网络爬虫(又被称为网页蜘蛛,网络机器人,在FOAF社区中间,更经常的称为网页追逐者),是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本。另外一些不常使用的名字还有蚂蚁、自动索引
数据三种获取方式
在移动互联网和大数据时代,会产生海量的数据,数据是沉默的宝藏。我们可以通过数据分析挖掘得出一些有价值的结论,而这些结论又可以提高用户的体验,提高公司运营效率。
- 自有数据像BAT、Google、Facebook、银行、运营商等
- 像大厂或者产业链上游购买数据
- 采用爬虫获取互联网上的数据 (注意:随着用户对自己隐私保护和法律健全此方式未来风险会越来越大)
爬虫架构体系
- 爬虫客户端来启动爬虫、停止爬虫、监控爬虫的调度情况
- URL管理器:来对将要管理的URL,和已经下载过的URL进行管理
- 网页下载器:会将URL指定的网页下载下来,并且存储为字符串
- 存储的字符串通过网页解析器进行解析,把有价值的数据解析出来,网页还有其它的URL可以补充到URL管理器中