使用爬虫时,怎么分析网页结构

本文介绍了如何使用浏览器的开发者工具分析网页结构,特别是对于爬虫编程而言,讲解了Elements和Network页签的重要作用,以及如何获取Request URL、User-Agent、Accept和Form Data等关键信息,为编写爬虫提供指导。
摘要由CSDN通过智能技术生成

爬虫,运行的本质就是模拟人访问网页,只不过不需要通过网页界面进行操作。

因此,要写出爬虫程序,我们就需要了解网页的结构。

以chrome为例,我们打开并分析一个网页的结构,这个网页是爱词霸的翻译界面,网页地址:http://fy.iciba.com/

例如,现在要用爬虫来替代我们“访问网页——输入需翻译的词——点击翻译按钮——得出结果”的操作过程,那我们需要先登录目标界面,分析网页结构。

登录后,爱词霸的翻译界面如下:

 

我们按下键盘上的F12,即可打开chrome的开发者工具,通过这个工具,我们就可以对目标网页及其按钮进行分析。

分析网页过程中,我们最常用的就是两个页签Elements和Network。

Elements展示的是网页上所有元素的HTML代码,例如我们把鼠标移至【翻译】按钮,则在Elements对应的代码中就会标示出按钮对应的代码,如图中蓝色行的代码。

Network展示的是我们与服务器之间的交互内容,包括我们访问的URL、我们传递给服务器的数据&#

  • 2
    点赞
  • 23
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值