目录
1.爬虫的定义
爬虫是一种按照一定规则,自动抓取万维网信息的程序或者脚本
2.关于爬虫,我们需要学习的有:
(1)python的基础语法
(2)html页面的内容抓取
(3)html页面进行数据提取
(4)scrapy框架
(5)爬虫与反爬虫
3.根据使用场景,爬虫的分类
(1)通用爬虫
通用网络爬虫 从互联网中搜集网页,采集信息,这些网页信息用于为搜索引擎建立索引从而提供支持,它决定着整个引擎系统的内容是否丰富,信息是否即时,因此其性能的优劣直接影响着搜索引擎的效果。
(2)聚焦爬虫
聚焦爬虫,是"面向特定主题需求"的一种网络爬虫程序,它与通用搜索引擎爬虫的区别在于: 聚焦爬虫在实施网页抓取时会对内容进行处理筛选,尽量保证只抓取与需求相关的网页信息。