《解析python网络爬虫:核心技术、Scrapy框架、分布式爬虫》 黑马程序员著
第一章 初识爬虫
学习目标
了解爬虫产生的背景,能够体会到爬虫的顺势而为
知道什么是爬虫
了解爬虫的用途,进一步理解网络爬虫的便捷之处
熟悉不同维度下爬虫的分类
1.1 爬虫产生的背景
- 企业产生的数据
- 数据平台购买的数据
- 政府机构公开的数据
- 数据管理咨询公司的数据
- 爬去的网络数据
1.2 爬虫的概念
一种按照一定规则自动请求万维网网站并提取网络数据的程序或脚本
1.3 爬虫的用途
- 搜索引擎
- 爬去图片
- 爬取用户公开联系方式,进行营销
- 爬取网站用户公开信息,进行分析
- 手机金融信息做投资分析
- 自动去除网页广告
即自动化收集重要数据
1.4 爬虫的分类
- 按照使用场景:通用爬虫,聚焦爬虫
通用爬虫:将爬虫对象从一些种子URL扩充到整个网络,主要用途是为门户站点搜索引擎和大型web服务提供商采集信息
聚焦爬虫:主题网络爬虫,选择性的爬行那些与预先定义好的主题相关的页面的网络爬虫 - 按照爬取形式:累积式爬虫,增量式爬虫
累积式爬虫:葱末一个时间点开始,通过遍历到方式爬取系统所允许存储和处理的所有网页
增量式爬虫:在具有一定量的网络规模的网络页面集合的基础上,采用更新数据的方式选取已有的集合中的过时的网页进行爬去,以保证索帕渠道的数据与真实网络足够接近 - 按照爬取数据的存在方式:表层爬虫,深层爬虫
表层爬虫:爬取表层网页的爬虫(静态网页)
深层爬虫:爬取深层网页的爬虫(隐藏在搜索表单后的,通过注册才能爬取的)
习题
填空题
- 网络爬虫又称网络蜘蛛,
网络机器人 - 网络爬虫能够按照一定的
规则,自动请求万维网网站并提取万维网网站数据 - 根据使用场景的不同可以分为:
通用爬虫和聚焦爬虫两种 - 爬虫可以爬去互谅网上
公开的且可以访问到的网页
简答
- 什么是网络爬虫?
- 件数通用爬虫和聚焦爬虫的区别
- 件数使用网络爬虫的优势