1、网络爬虫的类型理论上分为4类,但实际上分为两大类:一类即通俗的称为搜索引擎(通用爬虫);另一类就是网上大部分时间提到的聚焦爬虫,可以定向的爬取数据。
2、常用的反爬虫技术有以下几种
- 用户请求的Headers
- 用户操作网站行为
- 网站目录数据加载
- 数据加密
- 验证码识别
3、但每种反爬虫技术都有相对应的解决方案,这就需要我们能够冲网站的设计结构得知其设置的反爬虫技术。
4、还学习了大量的一些基础信息,如HTTP与HTTPS,Headers、Cookies、HTML.JavaScript、JSON、Ajax等概念,需要反复阅读来理解一下。