系统学习Python网络爬虫笔记(二)
第三章 彻底了解网络爬虫
3.1 爬虫能做什么
爬虫能够做什么:
1、能够采集网络数据
2、自动化测试
3、做一些脱离手动的操作(帮人投票,12306抢票,微信聊天助手–itchat)4、灰产业(薅羊毛,发起网络攻击,做水军)
本次学习重点集中于第一点————采集网络数据
数据能做什么
1、聚合产业(新闻网站,早期的今日头条)
2、搜索引擎(百度,谷歌)
3、数据分析、人工智能的源数据
4、特定领域的数据服务(二手车估价,天气预报,团购,去哪儿网等)
3.2 python网络爬虫需要的知识和解决的问题
学好爬虫需要的知识
1、计算机网络(http/https协议,tcp/ip协议,socket编程)
2、前端基础
3、正则表达式
4、数据存储技术(分布式存储
5、并发处理技术(多线程,多进程,线程池,协程)
6、图像识别(处理反爬、验证码),机器学习算法(验证码、数据解析)
爬虫中要解决的问题
1、爬虫的采集和更新策略
2、解决反爬
3、数据解析
4、数据存储
5、模拟登陆(验证码识别)
6、爬虫的监控和部署
7、数据的去重(url去重,内容去重)
3.3 爬虫是万能的吗
如何正确看待爬虫
1、爬虫不应毫无节制
2、robots协议
3、法律问题
4、爬虫不能抓取到网页上看不到的数据,是为了防止重复工作
5、目标网站会乖乖的让我们随便爬数据吗? - 反爬
大型网站会在根目录下放置robots协议,下面以淘宝的robots协议为例:
user-agent是爬虫的名称,比如第一个是百度的爬虫
allow是允许这个爬虫爬取的内容
disallow就是不允许爬取