2021-7-11（第一章：初始爬虫）

最新推荐文章于 2023-12-29 17:17:00 发布

小维_

最新推荐文章于 2023-12-29 17:17:00 发布

阅读量214

点赞数

分类专栏： python网络爬虫文章标签： python

本文链接：https://blog.csdn.net/qq_38633279/article/details/118658889

版权

34 篇文章 14 订阅

订阅专栏

1.大数据时代数据获取方式

1.企业生产的数据
2.数据平台购买的数据
3.政府/机构提供的公开数据
4.数据管理咨询公司的数据
5.爬取的网络数据

备注：参考：https://blog.csdn.net/weixin_33910759/article/details/88602242

  **网络爬虫**（又被称为网页蜘蛛，网络机器人）就是模拟浏览器发送网络请求，接收请求响应，一种按照一定的规则，自动地抓取互联网信息的程序。
原则上,只要是浏览器(客户端)能做的事情，爬虫都能够做。

1.搜索引擎
2.爬取图片
3.爬取用户公开联系方式，进行营销
4.爬取网站用户公开信息，进行分析
5.收集金融信息做投资分析
6.自动去除网页广告

1.通用爬虫（全网爬虫）：从一些种子url扩展到真个网络。
			作用：为用户站站点所有引擎和大型Web服务提供商采集数据

2.聚焦爬虫（主题网络爬虫）：选择性地爬取预先定义好的主题的网页的网络爬虫

1.累计式爬虫：从某一个时间点开始，通过遍历的方式爬取系统所允许存储和处理的所有网页。
		缺点：由于Web数据的动态特性，爬取的数据与真实环境的网络数据无法保持一直。

2.增量式爬虫：采用更新数据的方式选取已有集合中的过时网页爬取，以保证爬取的数据和真实环境的网络数据足够接近

1.表层爬虫：传统搜索引擎可以索引的页面，超链接可以达到的静态网页为主构成的Web页面

2.深层爬虫：无法通过静态链接获得，隐藏在搜索表单后的。如注册后可以看到的页面

关注