1.大数据时代数据获取方式
1.企业生产的数据
2.数据平台购买的数据
3.政府/机构提供的公开数据
4.数据管理咨询公司的数据
5.爬取的网络数据
备注:参考:https:
2.爬虫的概念
**网络爬虫**(又被称为网页蜘蛛,网络机器人)就是模拟浏览器发送网络请求,接收请求响应,一种按照一定的规则,自动地抓取互联网信息的程序。
原则上,只要是浏览器(客户端)能做的事情,爬虫都能够做。
3.爬虫的用途
1.搜索引擎
2.爬取图片
3.爬取用户公开联系方式,进行营销
4.爬取网站用户公开信息,进行分析
5.收集金融信息做投资分析
6.自动去除网页广告
4.爬虫的分类
4.1按照使用场景
1.通用爬虫(全网爬虫):从一些种子url扩展到真个网络。
作用:为用户站站点所有引擎和大型Web服务提供商采集数据
2.聚焦爬虫(主题网络爬虫):选择性地爬取预先定义好的主题的网页的网络爬虫
4.2按照爬取形式
1.累计式爬虫:从某一个时间点开始,通过遍历的方式爬取系统所允许存储和处理的所有网页。
缺点:由于Web数据的动态特性,爬取的数据与真实环境的网络数据无法保持一直。
2.增量式爬虫:采用更新数据的方式选取已有集合中的过时网页爬取,以保证爬取的数据和真实环境的网络数据足够接近
4.3按照爬取数据的存在形式
1.表层爬虫:传统搜索引擎可以索引的页面,超链接可以达到的静态网页为主构成的Web页面
2.深层爬虫:无法通过静态链接获得,隐藏在搜索表单后的。如注册后可以看到的页面