python爬虫知识(一)

1. 爬虫的风险:

    1.1 爬虫干扰了被访问网站的正常运营。

    1.2 爬虫抓取了收到法律保护的特定类型的数据或信息。

2. 爬虫需要知道的事:

    2.1 时常优化自己的程序,避免干扰到被访问网站的正常运行。

    2.2 使用,传播爬取到的数据时,不能涉及到用户隐私,商业机密等信息。

3. 爬虫分类:

    3.1 通用爬虫:抓取一整张页面的数据。

    3.2 聚焦爬虫:抓取页面中特定的局部内容。

    3.2 增量式爬虫:只爬取网站中最新更新的数据。

4. 反爬机制:防止爬虫程序对网站进行数据爬取。

5. 反反爬策略:爬虫程序通过相应的策略或技术手段,破解反爬机制。

6. robots.txt协议:君子协议,即网站的哪些内容是可以被允许爬取,哪些不能被爬取。如https://xx.xx.xx/robots.txt

7. http协议:服务器与客户端进行数据交互的一种方式。

常用请求头信息:
    User-Agent:请求载体的身份标识。
    Connection:请求完毕后,是断开链接还是保持链接。
常用响应头信息:
    Content-Type:服务器响应给客户端的数据类型。

8. https:安全(证书秘钥加密)的超文本传输协议。

9. 加密分类:对称秘钥加密(客户端加密传递给服务器端(服务器接收:加密方式+密文)),非对称秘钥加密(服务器端(私钥)加密传递给客户端(客户端接收:加密方式(公钥))),证书秘钥加密(https)。

 

 

 

 

 

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值