学习原因:
爬虫是一门有趣的技术,它可以让我们感受到程序的魅力,给我们带来视觉冲击感和成就感,可以极大地提高我们对编程的学习兴趣。
——————
愿你我,都能:
遵循君子协议
合理使用技术
提高学习兴趣
一. 君子协议
为什么每次被抓的都有你~
我们应该自觉遵守君子协议(爬虫协议的俗称),掌握爬虫的技术。
在对应网址之后增加 /robots.txt, 即可查看爬虫协议,知道哪些页面是不可爬取的,爬虫协议具体内容可自行百度了解。
例如: https://www.baidu.com/robots.txt
二. 用户代理
伪装术,我是平民~
网站可以识别出是程序还是浏览器访问的, 具有反爬虫措施, 所以需要进行伪装, 伪装需要添加用户代理(User-Agent)
查找方法1: 网址中输入 about:version
查找方法2: 查看请求头的中User-Agent