爬虫入门-2021-4-15

爬虫入门-2021-4-15

学习小结:

*爬虫只有20多个课时的课程,可见爬虫对于有python基础的小白来说,并不难,但爬虫不当会触犯法律的底线,所以课程老师的开始先讲robots协议,让我自己在以后的学习中爬虫中有一些权衡,老师讲的很好,有许多知识一带而过,像robots协议的详细内容,https协议等等,自己在课后搜索学习后,发现我现在所理解的一些东西,只是冰山一角,一些东西不能细看,像加密传输协议后面的内容,虽然大一的上半学期自己曾在学校的网络安全团队学习训练过,对一些加解密有有一定的理解,但不敢深究。所以保持一颗平常心,继续一步步的学习,才是最好的。
*

课程学习前戏:

1,你是否在夜深人静的时候,想看一些会让你更睡不着的图片… 2,你是否在考试或者面试前夕,想看一些具有针对性的题目和面试题.
3,你是否想在杂乱的网络世界中获取你想要的数据…

什么是爬虫:

—通过编写程序,模拟浏览器上网,然后,让其去互联网抓取数据的过程。 爬虫的价值:

实际应用:就业

爬虫究竟是合法还是违法的?

— 在法律中是不被禁止 — 具有违法风险——利用黑客技术攻击别人后台,窃取别人数据。 — 善意爬虫
恶意爬虫——大量攻击12306(购票网站) 爬虫带来的风险可以体现在如下2方面: — 爬虫干扰了被访问网站的正常运营 —
爬虫抓取了收到法律保护的特定类型的数据或信息 如何在使用编写爬虫的过程中避免进入局子子的厄运? —
时常的优化自己的程序,避免干扰被访问网站的正常运行 — 在使用,传播爬取到的数据时,审查抓取到的内容,如果发现了涉及到用户因此
商机机密等敏感内容需要及时爬取或传播。

爬虫在使用场景中的分类

— 通用爬虫 抓取系统重要组成部分 — 聚焦爬虫 是建立在通用爬虫的基础之上。抓取的是页面中特定的局部内容。 — 增量式爬虫
检测网站中数据更新的情况。只会抓取网页中最新出来的数据。 爬虫的矛与盾

反爬机制:

门户网站,可以通过特定相应的策略或者技术手段,防止爬虫程序进行网站数据的爬取。 反反爬策略:
爬虫程序可以通过制定相关的策略或者技术手段,破解门户网站中具备的反爬机制,从而可以获取门户网站数据

Robots.txt协议:

君子协议。规定了网站中哪些数据可以被爬虫爬取那些数据不可以不可以被爬取。

使用网站后加 robots.txt来查看网站协议(防君子,不防小人)

http协议:

— 概念: 就是服务器和客户端进行数据交互的一种形式。 常用请求头信息: — User-Agent: 请求载体的身份标识 —
Connection: 请求完毕后,是断开连接还是保持连接

常用响应头信息:

— Content-Type: 服务器响应回客户端的数据类型 https协议: — 安全的超文本传输协议(数据加密) 加密方式: —
对称密钥加密 — 非对称密钥加密 — 证书密钥加密

(以下是一些爬虫相关知识)

https协议:

HTTPS是一种通过计算机网络进行安全通信的传输协议,经由HTTP进行通信,利用SSL/TLS建立全信道,加密数据包。HTTPS使用的主要目的是提供对网站服务器的身份认证,同时保护交换数据的隐私与完整性。
SSL“安全套接层”协议,TLS“安全传输层”协议,都属于是加密协议,在其网络数据传输中起到保护隐私和数据的完整性。保证该网络传输的信息不会被未经授权的元素拦截或修改,从而确保只有合法的发送者和接收者才能完全访问并传输信息。

而且HTTPS有如下特点:

内容加密:采用混合加密技术,中间者无法直接查看明文内容 验证身份:通过证书认证客户端访问的是自己的服务器
保护数据完整性:防止传输的内容被中间人冒充或者篡改

收方能够证实发送方的真实身份; 发送方事后不能否认所发送过的报文; 收方或非法者不能伪造、篡改报文。

Robots协议:

自己理解:
robots协议是写在网站根目录下的,给外部爬虫使用者的标准,告知自己网站内哪些允许爬取,哪些不能爬取。全称是网络爬虫排除标准。

一个搜索蜘蛛访问一个站点时,它会首先检查该站点根目录下是否存在robots.txt,如果存在,搜索机器人就会按照该文件中的内容来确定访问的范围;如果该文件不存在,所有的搜索蜘蛛将能够访问网站上所有没有被口令保护的页面。

一、什么是robots协议

robots协议(也称为爬虫协议、机器人协议等)的全称是“网络爬虫排除标准”(Robots Exclusion
Protocol),网站通过robots协议告诉搜索引擎哪些页面可以抓取,哪些页面不能抓取。

robots是一个协议,而不是一个命令。robots.txt文件是一个文本文件,是放置在网站根目录下,使用任何一个常见的文本编辑器,就可以创建和
编辑它。robots.txt是搜索引擎中访问网站的时候要查看的第一个文件,其主要的作用就是告诉蜘蛛程序在服务器上什么文件是可以被查看的。

如果将网站视为一个房间,robots.txt就是主人在房间门口悬挂的“请勿打扰”或“欢迎进入”的提示牌。这个文件告诉来访的搜索引擎哪些房间可以进
入和参观,哪些房间因为存放贵重物品,或可能涉及住户及访客的隐私而不对搜索引擎开放。但robots.txt不是命令,也不是防火墙,如同守门人无法阻
止窃贼等恶意闯入者。

所以,马海祥建议各位站长仅当您的网站包含不希望被搜索引擎收录的内容时,才需要使用robots.txt文件,如果您希望搜索引擎收录网站上所有内容,请勿建立robots.txt文件。

二、robots协议的原则

robots协议是国际互联网界通行的道德规范,基于以下原则建立:

1、搜索技术应服务于人类,同时尊重信息提供者的意愿,并维护其隐私权;

2、网站有义务保护其使用者的个人信息和隐私不被侵犯。

**

三、robots协议的写法

**

robots.txt放到一个站点的根目录下即可,一个robots.txt只能控制相同协议,相同端口,相同站点的网页抓取策略。

1、robots.txt的常规写法

最简单的robots.txt只有两条规则:

User-agent:指定对哪些爬虫生效

Disallow:指定要屏蔽的网址

整个文件分为x节,一节由y个User-agent行和z个Disallow行组成。一节就表示对User-agent行指定的y个爬虫屏蔽z个网址。这里x>=0,y>0,z>0。x=0时即表示空文件,空文件等同于没有robots.txt。

  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值