2021-7-11(第一章:初始爬虫)

1.大数据时代数据获取方式

1.企业生产的数据
2.数据平台购买的数据
3.政府/机构提供的公开数据
4.数据管理咨询公司的数据
5.爬取的网络数据

备注:参考:https://blog.csdn.net/weixin_33910759/article/details/88602242

2.爬虫的概念

  **网络爬虫**(又被称为网页蜘蛛,网络机器人)就是模拟浏览器发送网络请求,接收请求响应,一种按照一定的规则,自动地抓取互联网信息的程序。
原则上,只要是浏览器(客户端)能做的事情,爬虫都能够做。

3.爬虫的用途

1.搜索引擎
2.爬取图片
3.爬取用户公开联系方式,进行营销
4.爬取网站用户公开信息,进行分析
5.收集金融信息做投资分析
6.自动去除网页广告

4.爬虫的分类

4.1按照使用场景

1.通用爬虫(全网爬虫):从一些种子url扩展到真个网络。
			作用:为用户站站点所有引擎和大型Web服务提供商采集数据

2.聚焦爬虫(主题网络爬虫):选择性地爬取预先定义好的主题的网页的网络爬虫

4.2按照爬取形式

1.累计式爬虫:从某一个时间点开始,通过遍历的方式爬取系统所允许存储和处理的所有网页。
		缺点:由于Web数据的动态特性,爬取的数据与真实环境的网络数据无法保持一直。

2.增量式爬虫:采用更新数据的方式选取已有集合中的过时网页爬取,以保证爬取的数据和真实环境的网络数据足够接近

4.3按照爬取数据的存在形式

1.表层爬虫:传统搜索引擎可以索引的页面,超链接可以达到的静态网页为主构成的Web页面

2.深层爬虫:无法通过静态链接获得,隐藏在搜索表单后的。如注册后可以看到的页面
  • 0
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值