前面的几篇我们了解了爬虫的大致过程
源码下载 + 数据解析 + 数据保存
对应粘贴了 requests、BeautifulSoup、re 的介绍连接、演示了利用 pymysql 模块连接并保存到 MySQL 的过程
但在下载源码中会遇到各种问题,这次来讲最简单的反爬策略:UA禁止
UA(User-Agent)是什么?
User-Agent:翻译是用户代理,其实就是用户的身份
当用浏览器随便访问一个网站时(chrome为例)
通过开发者工具-->network,选择一个请求的Headers,查看 R