学习笔记(04):Python爬虫开发-爬虫初始深入

立即学习:https://edu.csdn.net/course/play/24454/296785?utm_source=blogtoedu

爬虫场景分类:

  • 通用爬虫

     抓取重要组成部分(抓取一整张页面数据)

  • 聚焦爬虫

     建立在通用爬虫基础上进行(从一整张页面中特定的局部内容)

  • 增量式爬虫

     检测网站中数据的更新情况(只抓取网站中最新更新的数据)

 

爬虫的矛与盾

 

反爬机制

     门户网站,通过制定相应的策略或技术,防止爬虫程序对网站的数据进行抓取

反反爬策略

       爬虫程序可以通过制定相关的策略技术,破解门户网站中具备的反爬机制,从而可以获取门户网站的数据

 

反爬技术:

robots.txt 协议

       君子协议。(明确规定可以被爬虫的数据)

allow 是可以爬取的数据;

 

 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值