User-Agent||如何获取一个网页的User-Agent?图文演示,耐心教你~~

本文介绍了为何在网页爬虫中需要修改User-Agent以避免被服务器识别为爬虫,并详细解释了User-Agent的组成部分。通过举例说明如何在浏览器中获取并使用User-Agent,以及如何理解其格式,特别是针对Windows、Linux和macOS操作系统的标识。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

前言:

        博主是一个最近刚刚入门数据爬虫的小小小小白(请多多指教,乖巧.jpg),很多东西都是实践一遍才写的博客(所以原理什么的也不是很深入(/▽\),虽然知识都很零碎,不过我相信慢慢积累还是有用滴~

        各位看客觉得有用就好,没用请忽略(love & peace(✿◕ ‿    ◕✿)

一、为啥要获取网页User-Agent?

        当我们自己用Python编写代码进行网页爬虫时,会默认向服务器发送一个Python爬取请求,但一般网站是禁止爬虫访问的(HTTP Error 403: Forbidden,这样是很不礼貌滴hhh)

        那怎么办呢?我们可以通过修改User-Agent字段来骗过网站

        为什么修改User-Agent就可以了呢?User-Agent是啥,这么神通广大?

        通过User-Agent字段,网站服务器会知道访问者是通过什么工具来请求的,如果是爬虫请求,无情拒绝;如果是用户浏览器,准许放行。


二、如何获取网页User-Agent?

        以好大夫在线_网上问诊,双手点赞好大夫(好大夫)在线_网上问诊,双手点赞好大夫)为例子,打开要爬虫的网页,然后点击浏览器右上角的“更多工具”选项选择开发者工具(博主这里是谷歌浏览器哦~~),或者用快捷键F12打开也行

         然后按键盘的F5刷新网页;接着选择Network,再选择Doc;再选择Headers选项卡,在右侧弹出的窗口滚动鼠标滚轮往下划,找到User-Agent字段,选择复制即可

         编写代码时将刚才复制的User-Agent字段构造成字典形式,如下

user_agent = 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/81.0.4044.113 Safari/537.36'
headers={'User-Agent':user_agent,} 

三、怎么看懂User-Agent字段?

        User-Agent一般格式为:Mozilla/5.0 (操作系统) 引擎版本 浏览器版本号

 3.1 Mozilla/5.0

        如果大家多搜搜几个User-Agent看看就会发现,几乎所有的User-Agent都带有Mozilla字样,为啥?历史遗留的原因,大家都默认此部分(详细的来源大家可以去网上搜搜,一搜一大把~

3.2 操作系统

        不同操作系统的写法不一样,大家注意哦~

#Windows操作系统

Windows NT 5.0 => 对应  Windows 2000 操作系统
Windows NT 5.1 => 对应  Windows XP 操作系统
Windows NT 6.0 => 对应 如 Windows Vista 操作系统
Windows NT 6.1 => 对应 如 Windows 7 操作系统
Windows NT 6.2 => 对应 如 Windows 8 操作系统
Windows NT 6.3 => 对应 如 Windows 8.1 操作系统
Windows NT 10.0 => 对应 如 Windows 10 操作系统
Win64; x64 => 对应 Win64 on x64 操作系统
WOW64 => 对应 Win32 on x64 操作系统

#Linux操作系统

X11; Linux i686; => 对应  Linux 操作系统,i686 版本
X11; Linux x86_64; => 对应  Linux 操作系统,x86_64 版本
X11; Linux i686 on x86_64 => 对应  Linux 操作系统,运行在 x86_64 的 i686 版本

#macOS操作系统

Macintosh; Intel Mac OS X 10_9_0 => 对应  Intel x86 或者 x86_64
Macintosh; PPC Mac OS X 10_9_0 => 对应  PowerPC
Macintosh; Intel Mac OS X 10.12; => 注意不用下划线,用点

3.3 引擎版本

        历史原因导致(我也不太懂,忽略跳过),反正最近这部分已经固定,没怎么变过

3.4 浏览器版本号

        博主用的是谷歌浏览器,其中60.0 是大版本,3100是持续增大的一个数字,而0则是修补漏洞的小版本

### 回答1: 抱歉,作为一名语言模型,我无法绘制图像。但我可以为你描述一个简单的网络拓扑图,它可能类似于这样: 在中心,有一个圆形的节点,代表服务器或路由器。从该节点向外伸出几条线,每条线代表一个网络连接。每个连接的末端可能是另一个圆形节点,也可能是一个小圆点,代表计算机或其他设备。 在实际的网络拓扑图中,可能还会有更多的节点、连接和子网。但是这个简单的示例应该足以帮助你理解网络拓扑的基本概念。 ### 回答2: 网络拓扑图是一种用图形表示网络结构的工具。它展示了网络中各个节点和它们之间的连接关系。一个简单的网络拓扑图可以如下所示: 在这张图中,我们有四个节点,分别用A、B、C、D表示。这四个节点可以代表计算机、服务器或其他网络设备。这些节点之间的连接关系是通过连线表示的,箭头表示了连接的方向。 在这个例子中,A节点连接到B和C节点,B节点连接到C和D节点,C节点连接到D节点。这种连接方式可以是有线连接,比如以太网线,或者是无线连接,比如Wi-Fi。 这个简单的网络拓扑图展示了一个典型的星型拓扑结构,其中A节点是中心节点,其他节点都与它相连。这种拓扑结构通常用于小型网络,例如家庭网络或办公室网络。 通过网络拓扑图,我们可以清楚地看到网络中各个节点之间的连接关系,帮助我们理解和管理网络。此外,它还能够帮助我们确定网络中的瓶颈和故障点,以便更好地优化网络性能或解决问题。 总之,网络拓扑图是一种简单而重要的工具,可以帮助我们理解和管理网络。它可以根据实际情况进行扩展和调整,以适应更复杂的网络结构。 ### 回答3: 网络拓扑图是用于描述计算机网络中各个设备之间连接关系的图形化表示。以下是一个简单的网络拓扑图的描述: 这个网络拓扑图描述了一个小型办公室网络,其中有5台设备,包括1台路由器、2台台式电脑、1台打印机和1台无线接入点。所有设备都通过以太网连接。 在图的左侧,有一台标有“路由器”的设备,它有多个以太网接口,用于与其他设备连接。从路由器分别连接到两台台式电脑和无线接入点。无线接入点放置在办公室中心,它通过无线信号与其他无线设备通信。 两台台式电脑位于网络中间部分,它们分别通过以太网电缆与路由器相连。这些电脑可以通过路由器互相通信,并与其他设备进行数据交换。 在图的右侧,有一台打印机,它通过以太网连接到路由器。这将使所有网络中的设备都能够与打印机进行通信和共享打印资源。 整个网络拓扑图简单明了,清晰地展示了设备之间的连接关系。它可以帮助人们更好地理解网络结构,诊断和解决网络问题。
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值