爬虫基础（http请求和html结构）

最新推荐文章于 2024-07-17 22:42:53 发布

rwangnqian

最新推荐文章于 2024-07-17 22:42:53 发布

阅读量4.3k

点赞数 6

分类专栏： python python数据爬虫文章标签： http html 爬虫基础

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/rwangnqian/article/details/83622165

版权

要使用selenium还是使用其他方式抓取网页的内容，都必须对网页的架构比较熟悉。我们来看看如何定位网页的内容。

首先我们先尝试解析URL，看看下面这个URL地址：

http://www.x2y2.com:80/fisker/post/0703/window.location.html?ver=1.0&id=6#imhere

url：协议 + 域名／IP + 端口 + 路由 + 参数

我们来解析一下就能知道的很清楚。

协议：http

域名：www.x2y2.com

端口：80

路由：/fisker/post/0703/window.location.html

参数：?ver=1.0&id=6 #传递给服务器的参数

锚点：#imhere

ps：最后一个概念锚点就是指定了html中的特定位置

如这个html中就设置一个锚点链接<a href="#miao">去找喵星人</a>；（注意：href属性的属性值最前面要加#）

http的请求和响应

我们打开www.baidu.com这个网址，并用Chrome为例来讲解抓包，windows下用F12来调出开发者模式来审查网页元素。

注意看到点击network；下面一栏选择Preserve log来保留跳转时之前的日志。

第一列 Name ：请求的名称，一般会将 URL 的最后一部分内容当作名称。
第二列 Status ：响应的状态码，这里显示为 200 ，代表响应是正常的。通过状态码，我们可以判断发送了请求之后是杏得到了正常的响应。
第三列 Type ：请求的文梢类型。这里为 document，代表我们这次请求的是一个 HTML 文档，内容就是一些 HTML 代码。
第四列 Initiator ：请求源。用来标记请求是由哪个对象或进程发起的。
第五列 Size ：从服务器下载的文件和请求的资源大小。如果是从缓存中取得的资源，则该列会显示from cache。
第六列Time ：发起请求到获取响应所用的总时间。
第七列Watefall ：网络请求的可视化瀑布流。

ps:这里重点讲解一下Preserve log。有时候你点击一个链接。浏览器发出n个请求，然后跳转到了另外一个页面。这个时候有进行了一个新的请求。勾选这个选项工具就会保存你跳转之前的请求。

1.请求

点选ALL查看所有的网络请求。可以看到左下角共有18项请求。而其实我打开的这个网页只是www.baidu.com.

点击选择第一个请求。一般来说第一个请求是主页面的请求。页面就会变成这样。

最低0.47元/天解锁文章

关注

6
点赞
踩
37

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。