目录
1.爬虫的定义
爬虫是一种按照一定规则,自动抓取万维网信息的程序或者脚本
2.关于爬虫,我们需要学习的有:
(1)python的基础语法
(2)html页面的内容抓取
(3)html页面进行数据提取
(4)scrapy框架
(5)爬虫与反爬虫
3.根据使用场景,爬虫的分类
(1)通用爬虫
通用网络爬虫 从互联网中搜集网页,采集信息,这些网页信息用于为搜索引擎建立索引从而提供支持,它决定着整个引擎系统的内容是否丰富,信息是否即时,因此其性能的优劣直接影响着搜索引擎的效果。
(2)聚焦爬虫
聚焦爬虫,是"面