爬虫学习笔记01-概念

文章介绍了网络爬虫的基本概念,包括如何通过编程模拟浏览器抓取数据,以及网站采用的反爬机制和爬虫的反反爬策略。同时,提到了robots协议在爬虫行为规范中的作用,和常见的请求头信息如User-Agent。此外,讨论了爬虫可能带来的合法性和风险问题,以及如何避免这些风险。最后,简要概述了爬虫的分类(通用、聚焦、增量)和几种加密方式。
摘要由CSDN通过智能技术生成

爬虫学习笔记01-概念

网络爬虫:通过编写程序,模拟浏览器上网,然后让其去互联网上抓取数据的过程。

反爬机制:门户网站可以通过制定相应的策略或者技术手段,防止爬虫程序进行网站数据的爬取。

反反爬策略:爬虫程序也可以通过制定相关的策略或者技术手段,破解门户网站具备的反爬机制,从而获取门户网站的数据。

robots协议:君子协议。规定网站内容中哪些可以爬取,哪些不可以被爬取。

常用请求头信息

-user-agent:请求载体的身份标识
-connection:请求完毕后,是断开连接还是保持连接

爬虫的合法性
  • 爬虫本身不被禁止
  • 获取数据具有违法风险
  • 善意爬虫和恶意爬虫
爬虫的风险
  • 爬虫干扰了被访问网站的正常运营
  • 爬虫抓取了收到法律保护的特定类型的数据或信息
如何避免风险
  • 时常优化自己的程序,避免干扰被访问网站的正常运行
  • 在使用/传播爬取到的数据时,审查抓取到的内容,发现涉及到用户隐私和商业机密等敏感内容,需要及时停止爬取/传播。
爬虫的分类
  • 通用爬虫:搜索引擎抓取系统的重要组成部分。抓取的是一整张页面数据

  • 聚焦爬虫:是建立在通用爬虫的基础之上。抓取去的是页面中特定的局部内容。

  • 增量爬虫:检测网站中数据更新的情况。只会抓取网站中最新更新出来的内容。

加密方式
  • 对称密钥加密:客户端加密->传输密钥和加密信息->服务端解密

  • 非对称密钥加密:创建密钥对->将公钥发送给客户端->使用服务端发送的密钥对消息进行加密->将加密信息发送给服务端->使用私钥对信息进行解密

  • 证书密钥加密:公开密钥->证书认证机构->给公钥签名->证书

UA:User-Agent(请求载体的身份标识)
  • UA检测

    • 门户网站的服务器会检测对应请求的载体身份标识,如果检测到请求的载体为某一款浏览器,说明该请求是一个正常请求。
    • 但是,如果检测到请求的载体身份标识不是基于某一款浏览器的,则表示该请求是基于爬虫的,服务器端很有可能拒绝该请求。
  • UA伪装:让爬虫对应的请求载体身份标识伪装成某一款浏览器。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

RWLinno

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值