python网络爬虫学习——chrome浏览分析网站

参考资料:python网络爬虫技术与应用【邓维】

        平常在浏览器中看到的网页都是比较规整的, 但抓取到的网页源代码却是一个很繁杂的文件, 想要精准找到需要抓取的信息, 首先需要借助浏览器,对目标网站进行分析。

1、检查目标站点

        打开目标站点后,在网页中右击“检查”选项,或按F12键,进入查看元素页面。其中Elements显示的便是网页的源代码,另一个很重要的部分是Network(开发者工具)。

2、利用chrome查找需要提取信息的位置

        点击下图右上角位置红框处的按钮,当鼠标停留在网页中的某个内容上时,Elements中会定位到该内容在源代码中的位置。知道需要提取的内容位置及结构后,便能用正则表达式或其解析库提取信息,不过在开始提取信息前还要做一个检查。

3、检查的详细步骤

        ①单击Network

        ②勾选Preserve log

        ③单击Doc

        ④单击“清理”按钮

        ⑤刷新页面

        ⑥单击网址链接

        ⑦选中Response

        ⑧需要检查在Response中,能否搜索到想要的信息,按Ctri+F快捷键搜索

        如果能搜索到,便能够编辑网络爬虫。假如搜索不到,可能需要抓取的信息是JS动态加载的,抓取它需要采用模拟浏览器的方式。

        以上主要介绍的是怎样利用chrome浏览器帮助解析目标站点,主要利用Chrome的检查功能,分析网页结构,定位网页内容。检查网页微信静态还是JS动态生成。

        从打开浏览器,到看到想看的内容,中间经过的流程是什么呢?下面就从三个方面明白这个过程,第一个是Web,第二个是浏览器,第三个是服务器。

(1)通常经由浏览器访问Web,常见到的网页中包含超文本、图片、视频和音频等各项内容。提供这些资源的时候一个一个的站点,经由互联网,这些站点相互连接起来。经由超链接从一个网页访问到另一个网页,从一个站点到另一站点的这一切组成一个庞大的网,就是Web。

(2)在Web的世界中最不能少的角色就是浏览器。HTTP消息有两种,即Requests和、Response。浏览器的首要工作便是发送报文和接收处理报文。一个软件只要完成下面几个功能,基本上就能称之为一个浏览器。功能如下:

        ①能够根据用户的请求生成合适的HTTP的request报文。

        ②能够对各种的Response进行处理。

        ③渲染HTML文档,生成文档数,能够解释css,还要有个javascript引擎。

        ④能够发起NDS查询得到IP地址。

(3)服务器最基本的功能便是响应客户端的资源请求。服务器首先会侦听80端口,收到http请求,然后根据请求进行处理。假如请求一个图片,那就根据路径找到资源发回;请求静态HTML页面也是如此,假如请求的是想php这样的动态页面,应该先调用php解释器生成HTML代码,而后返回给客户端。

  • 3
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值