Python爬虫(从requests到scrapy
爬虫作者:Ychhh_铺垫内容爬虫分类通用爬虫:抓取系统重要组成部分聚焦爬虫:建立在通用爬虫的基础之上抓取的为抓取页面局部内容增量式爬虫:检测网站中数据的更新情况反爬机制门户网站,可以通过指定相应的策略,防止爬虫程序进行数据的窃取反反爬策略:破解反爬策略,获取数据相关协议 robots.txt 协议:君子协议。规定了网站中哪些数据可以被爬取,哪些不可以被爬取 http协议:常用客户端与服务器的通信协议 常用请求头信息:
原创
2021-10-14 22:33:07 ·
890 阅读 ·
0 评论