python网络爬虫学习——chrome浏览分析网站

maizeman126

于 2024-05-06 01:00:00 发布

阅读量428

点赞数 3

分类专栏： python统计分析文章标签：爬虫学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/maizeman126/article/details/137653358

版权

python统计分析专栏收录该内容

91 篇文章 4 订阅

订阅专栏

参考资料：python网络爬虫技术与应用【邓维】

平常在浏览器中看到的网页都是比较规整的，但抓取到的网页源代码却是一个很繁杂的文件，想要精准找到需要抓取的信息，首先需要借助浏览器，对目标网站进行分析。

1、检查目标站点

打开目标站点后，在网页中右击“检查”选项，或按F12键，进入查看元素页面。其中Elements显示的便是网页的源代码，另一个很重要的部分是Network（开发者工具）。

2、利用chrome查找需要提取信息的位置

点击下图右上角位置红框处的按钮，当鼠标停留在网页中的某个内容上时，Elements中会定位到该内容在源代码中的位置。知道需要提取的内容位置及结构后，便能用正则表达式或其解析库提取信息，不过在开始提取信息前还要做一个检查。

3、检查的详细步骤

①单击Network

②勾选Preserve log

③单击Doc

④单击“清理”按钮

⑤刷新页面

⑥单击网址链接

⑦选中Response

⑧需要检查在Response中，能否搜索到想要的信息，按Ctri+F快捷键搜索

如果能搜索到，便能够编辑网络爬虫。假如搜索不到，可能需要抓取的信息是JS动态加载的，抓取它需要采用模拟浏览器的方式。

以上主要介绍的是怎样利用chrome浏览器帮助解析目标站点，主要利用Chrome的检查功能，分析网页结构，定位网页内容。检查网页微信静态还是JS动态生成。

从打开浏览器，到看到想看的内容，中间经过的流程是什么呢？下面就从三个方面明白这个过程，第一个是Web，第二个是浏览器，第三个是服务器。

（1）通常经由浏览器访问Web，常见到的网页中包含超文本、图片、视频和音频等各项内容。提供这些资源的时候一个一个的站点，经由互联网，这些站点相互连接起来。经由超链接从一个网页访问到另一个网页，从一个站点到另一站点的这一切组成一个庞大的网，就是Web。

（2）在Web的世界中最不能少的角色就是浏览器。HTTP消息有两种，即Requests和、Response。浏览器的首要工作便是发送报文和接收处理报文。一个软件只要完成下面几个功能，基本上就能称之为一个浏览器。功能如下：

①能够根据用户的请求生成合适的HTTP的request报文。

②能够对各种的Response进行处理。

③渲染HTML文档，生成文档数，能够解释css，还要有个javascript引擎。

④能够发起NDS查询得到IP地址。

（3）服务器最基本的功能便是响应客户端的资源请求。服务器首先会侦听80端口，收到http请求，然后根据请求进行处理。假如请求一个图片，那就根据路径找到资源发回；请求静态HTML页面也是如此，假如请求的是想php这样的动态页面，应该先调用php解释器生成HTML代码，而后返回给客户端。

关注

3
点赞
踩
5

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。