python爬虫模拟浏览器的两种方法

最新推荐文章于 2024-09-23 10:31:04 发布

Uzizi

最新推荐文章于 2024-09-23 10:31:04 发布

阅读量1.4w

点赞数 2

分类专栏：爬虫 Python

本文链接：https://blog.csdn.net/Uzizi/article/details/80548156

版权

本文介绍了Python爬虫在遇到403错误时如何模拟浏览器进行网页抓取。通过查看浏览器的User-Agent，使用`build_opener()`或`add_header()`方法修改HTTP报头，成功规避网站的防爬机制。文中详细讲解了两种方法的实现步骤，并给出了代码示例。

摘要由CSDN通过智能技术生成

爬虫爬取网站出现403，因为站点做了防爬虫的设置

一、Herders 属性

爬取CSDN博客

import urllib.request
url = "http://blog.csdn.net/hurmishine/article/details/71708030"file = urllib.request.urlopen(url)

爬取结果

urllib.error.HTTPError: HTTP Error 403: Forbidden

这就说明CSDN做了一些设置，来防止别人恶意爬取信息

所以接下来，我们需要让爬虫模拟成浏览器
任意打开一个网页，比如打开百度,然后按F12，此时会出现一个窗口，我们切换到Network标签页，然后点击刷新网站，选中弹出框左侧的“www.baidu.com”，即下图所示：
访问百度
往下拖动我们会看到“U

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

Uzizi

关注关注

2
点赞
踩
15

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

python爬虫模拟浏览器的两种方法_python爬虫模拟浏览器的两种方法实例分析

weixin_36476970的博客

02-21

3624

本文实例讲述了python爬虫模拟浏览器的两种方法。分享给大家供大家参考，具体如下：爬虫爬取网站出现403，因为站点做了防爬虫的设置一、Herders 属性爬取CSDN博客import urllib.requesturl = "http://blog.csdn.net/hurmishine/article/details/71708030"file = urllib.request.urlopen...

干货分享：python爬虫模拟浏览器的两种方法实例分析（赶紧收藏）

weixin_45550143的博客

12-11

1016

今天为大家带来的内容是：干货分享：python爬虫模拟浏览器的两种方法实例分析（赶紧收藏）文章主要介绍了python爬虫模拟浏览器的两种方法,结合实例形式分析了Python爬虫模拟浏览器的两种常见操作技巧与使用注意事项,需要的朋友可以参考下！！！本文实例讲述了python爬虫模拟浏览器的两种方法。分享给大家供大家参考，具体如下：爬虫爬取网站出现403，因为站点做了防爬虫的设置一、H...

参与评论您还未登录，请先登录后发表或查看评论

Python爬虫之selenium模拟浏览器

05-01

Python爬虫之selenium模拟浏览器，通过selenium模拟浏览器操作，达到访问百度首页并搜索的目的

浏览器模拟爬虫

qq_67181251的博客

06-30

861

Selenium 通过使用WebDriver支持市场上所有主流浏览器的自动化。WebDriver 是一个 API 和协议，它定义了一个语言中立的接口，用于控制 web 浏览器的行为。每个浏览器都有一个特定的 WebDriver 实现，称为驱动程序。驱动程序是负责委派给浏览器的组件，并处理与 Selenium 和浏览器之间的通信。这种分离是有意识地努力让浏览器供应商为其浏览器的实现负责的一部分。

一.python入门

最新发布

我是个好人呀，????

09-23

1875

所谓“工欲善其事，必先利其器”，在正式学习Python之前要先搭建Python开发环境。由于Python是跨平台的，所以可以在多个操作系统上进行编程，常用的操作系统及说明如下表所示。

python爬虫模拟与思考_python3爬虫的模拟浏览器

weixin_39983993的博客

11-30

262

爬虫的使用过程中，网站最简单的反爬虫就是验证发起请求的客户端是否为浏览器，因此需要爬虫模拟浏览器对网站发起请求。这里介绍一个fake_useraent1、伪造useragent字符串，每次请求都使用随机生成的useragen为了减少复杂度，随机生成UA的功能通过第三方模块库fake-useragent实现，使用pip进行安装pip install fake-useragent2、生成一个usera...

爬虫框架1（模拟浏览器）

Resurrected_Eagle的博客

09-16

274

模拟浏览器（模拟人工点击浏览器）谷歌插件chromedriver.exe 必备包 1.selenium from selenium import webdriver import time,random,datetime import os from selenium.webdriver.chrome.options import Options os.environ['NLS_LANG']='SIMPLIFIED CHINESE_CHINA.UTF8' # 模拟浏览器，使用谷歌浏览器，将chromedr

利用Selenium模拟浏览器进行爬虫

SongyangJi

04-06

554

上一篇我们是通过手工的方式去获得ajax请求的地址，优点是速度快，编码简单，但是问题是，很多时候我们是很难提取到真实地址的，并且也很难解析地址的规律。这个时候，可以考虑使用使用一种模拟工具 selenium去代替人工的方式去模拟操纵浏览器。这个库可以自动化地做一些东西，如点击按钮、提交表单（填写账户密码、输入验证码等等）。在这里，实际上就是让库模拟浏览器加载出页面的真实数据之后再进行爬取数据。爬虫地址。 from selenium import webdriver import time url

python爬虫模拟浏览器的两种方法实例分析

09-18

这两种方法都可以有效地模拟浏览器行为，避免被目标网站识别为爬虫。但值得注意的是，尽管设置了正确的User-Agent，某些网站可能还有其他的反爬机制，如验证码、IP限制等，这时可能需要更复杂的策略，例如使用代理IP...

python爬虫模拟浏览器的两种方法_python3爬虫的模拟浏览器

weixin_32831131的博客

02-21

2541

学了那么久Python还什么都做不了，我觉得你该试试这个方法了

龙叔的博客

11-08

1万+

答应我，别再做无用功了

模拟浏览器发送请求，一般用于爬虫

01-06

开发爬虫时，写的工具类。用于模拟浏览器请求，欺骗服务器

爬虫专用浏览器

06-02

该软件包可以结合webview进行爬取网页，自己弄好接口就可以了！

Python爬虫模拟浏览器神器

Trb201013的博客

02-22

1494

我们学习Python必然是为了找到高薪的工作，下面这些面试题是来自阿里、腾讯、字节等一线互联网大厂最新的面试资料，并且有阿里大佬给出了权威的解答，刷完这一套面试资料相信大家都能找到满意的工作。Python所有方向的技术点做的整理，形成各个领域的知识点汇总，它的用处就在于，你可以按照上面的知识点去找对应的学习资源，保证自己学得较为全面。观看零基础学习视频，看视频学习是最快捷也是最有效果的方式，跟着视频中老师的思路，从基础到深入，还是很容易入门的。最后祝大家天天进步！

Python爬虫入门：使用selenium库，webdriver库模拟浏览器爬虫，模拟用户爬虫，爬取网站内文章数据，循环爬取网站全部数据。

weixin_66146598的博客

08-05

2715

Python爬虫入门：使用selenium库，webdriver库模拟浏览器爬虫，模拟用户爬虫，爬取网站内文章数据，循环爬取网站全部数据。灭个步骤都有详细解析,一看就会！

爬虫高度模拟浏览器

酸乳乳酸的博客

12-01

311

import urllib.request as request import urllib import http.cookiejar #注意要使用Fiddler调试，下面的网址就设置为‘www.baidu.com/' url = 'http://www.baidu.com' headers = {"Accept":" text/html,application/xhtml,applica...

Python爬虫入门案例5：使用selenium进行Chrome浏览器的模拟行为

weixin_62848089的博客

05-19

908

一开始跟着网课敲案例的代码，发现很多代码都报错了，百度了一下发现是因为现在的selenium已经舍弃了一些语法，需要用新的语法来进行爬取，这里写的是修改过后的代码，可以直接拿来用）案例：使用selenium，打开baidu首页，然后在搜索框搜索“咸蛋dd”，查看下一页，然后返回上一页，最后退出页面。果然还是要自己手敲一遍，否则我都不知道这个语法有变化了。

python爬虫之selenium模拟浏览器

爱编程的鱼的博客

12-24

3846

之前在异步加载（AJAX）网页爬虫的时候提到过，爬取这种ajax技术的网页有两种办法：一种就是通过浏览器审查元素找到包含所需信息网页的真实地址，另一种就是通过selenium模拟浏览器的方法[1]。当时爬的是豆瓣，比较容易分析出所需信息的真实地址，不过一般大点的网站像淘宝这种是不好分析的，所以利用selenium模拟浏览器的行为来爬取数据是一个比较可行的办法。

网络爬虫-模拟手机浏览器抓取数据