二、http协议和Chrome抓包工具

本文详细解析了HTTP协议的工作原理,重点关注了请求头和响应头中的关键信息,包括User-Agent的重要性以及网络爬虫如何处理URL、状态码和伪装User-Agent。同时介绍了爬虫数据抓取的基础原理和常用工具如Selector的运用。
摘要由CSDN通过智能技术生成

Web请求全过程解析(重点必看)

协议简单了解

'''
HTTP 协议
协议: 就是两个计算机之间为了能够流畅的进行沟通而设置的一个君子协定.常见的协议有TCP/IP.SOAP协议,HTTP协
议,SMTP协议等等...

HTTP协议,Hyper Text Transfer Protocol (超文本传输协议)的缩写,是用于从万维网(WWW:World Wide Web )服务
器传输超文本到本地浏览器的传送协议.直白点儿,就是浏览器和服务器之间的数据交互遵守的就是HTTP协议.

HTTP协议把一条消息分为三大块内容.无论是请求还是响应都是三块内容

请求:
1 请求行->请求方式(get/post) 请求url地址 协议
2 请求头->放一些服务器要使用的附加信息
3
4 请求体->一般放一些请求参数

响应:
1 状态行->协议 状态码  200  302 404  500
2 响应头->放一些客户端要使用的一些附加信息    cookie, 验证信息, 解密的key
3
4 响应体->服务器返回的真正客户端要用的内容(HTML, json)等

F12-->打开浏览器的开发者工具

请求头中最常见的一些重要内容(爬虫需要):

1. User-Agent :请求载体的身份标识(用啥发送的请求)
2. Referer: 防盗链(这次请求是从哪个页面来的 ?反爬会用到)
3. cookie: 本地字符串数据信息(用户登录信息,反爬的token)

响应头中一些重要的内容:

1. cookie: 本地字符串数据信息(用户登录信息,反爬的token)
2. 各种神奇的莫名其妙的字符串(这个需要经验了,一般都是token字样,防止各种攻击和反爬

请求方式:

GET: 显示提交

POST: 隐示提交

'''

后面我们重点关注 请求头和响应头。 

HTTP协议

URL初步概念

web scraperweb scraperweb scraper

那么实际上浏览器用的是一种叫html标记的语言来进行解析网络请求的。

html标记语言 :

http://www.w3school.com.cn/

http://www.itcast.cn

就是URL!

我们给浏览器输入的地址,实际上就是一个url(Uniform Resource Locator) 统一资源定位符

URL的一般格式是: protocol:// hostname[:port] / path / [;parameters][?query]#fragment

基本上是由三部分组成:

1 协议(HTTP呀,FTP呀~~等等)

2 主机的IP地址 (或者域名)

3 请求主机资源的具体地址(目录,文件名等)

其中:

第一部分和第二部分用 “://” 分割

第二部分和第三部分用 “/” 分割

1://2/3 —–> http://www.itcast.cn/channel/teacher.shtml#ac

下面看几个URL例子:

http://xianluomao.sinaapp.com/game

其中协议 http,计算机域名 xianluomao.sinaapp.com,

请求目录 game

http://help.qunar.com/list.html

其中协议 http,计算机域名 help.qunar.com  文件 list.html

网络爬虫的主要处理对象就是类似于以上的URL,爬虫根据URL地址取得所需要的文件内容,然后对它进一步的处理。

常见响应状态码

HTTP 响应状态码 https://developer.mozilla.org/zh-CN/docs/Web/HTTP/Status#参见

信息响应 (100–199)

成功响应 (200–299)

重定向消息 (300–399)

客户端错误响应 (400–499)

服务端错误响应 (500–599)

User-Agent

浏览器 就是世界上被允许的身份 。那么如果你不想你的爬虫代码成为一个路人,你需要伪装成一个被公认的浏览器 。

伪装的办法当然就是给自己的请求加上一个对应的User-Agent头啦。

web scraper

Chrome⽹上应⽤商店下载:

https://chrome.google.com/webstore/detail/web-scraper/jnhgnonknehpejjnehehllkliplmbmhn

web scraper 原理浅析

1、选择器(selector)参数讲解

2、爬⾍数据抓取原理(如何应⽤到所有⽹⻚)

3、选中元素顺序原理

4、csv ⽂件讲解

5、selector 操作选项讲解

6、sitemap 详情选项讲解

  • 14
    点赞
  • 12
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
Wireshark是一款网络抓包工具,可以用来分析网络数据包。下面是Wireshark抓包分析HTTP协议的步骤: 1. 打开Wireshark软件,选择需要抓包的网络接口,点击“开始”按钮开始抓包。 2. 在浏览器中访问一个网站,例如www.baidu.com。 3. 停止抓包,可以看到Wireshark捕获到了很多数据包。 4. 在过滤器中输入“http”,可以过滤出HTTP协议的数据包。 5. 选中一个HTTP数据包,可以在下方的详细信息中查看HTTP协议的各个字段,例如请求头、响应头、请求体、响应体等。 6. 可以通过Wireshark的统计功能,查看HTTP协议的各种统计信息,例如请求数量、响应时间、数据流量等。 下面是一个示例HTTP数据包的详细信息: ```http Frame 1: 1514 bytes on wire (12112 bits), 1514 bytes captured (12112 bits) Ethernet II, Src: IntelCor_36:9d:7f (00:25:90:36:9d:7f), Dst: Cisco_0c:20:00 (00:0c:20:00:00:00) Internet Protocol Version 4, Src: 192.168.1.100, Dst: 202.108.22.5 Transmission Control Protocol, Src Port: 50360, Dst Port: 80, Seq: 1, Ack: 1, Len: 1460 Hypertext Transfer Protocol GET / HTTP/1.1\r\n Host: www.baidu.com\r\n Connection: keep-alive\r\n Cache-Control: max-age=0\r\n Upgrade-Insecure-Requests: 1\r\n User-Agent: Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.36 Edge/16.16299\r\n Accept: text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,image/apng,*/*;q=0.8\r\n Accept-Encoding: gzip, deflate\r\n Accept-Language: en-US,en;q=0.9\r\n \r\n ```

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值