爬虫第一章（百度小反爬）

大梳

已于 2024-03-28 12:05:19 修改

阅读量1.1k

点赞数 7

文章标签：爬虫 python

于 2024-03-28 10:44:47 首次发布

本文链接：https://blog.csdn.net/m0_57566120/article/details/137097190

版权

本文讲述了如何通过F12抓包工具获取百度接口信息，发现因反爬策略导致无法正常获取数据。通过分析得知，添加User-Agent参数模拟真实浏览器访问可以解决这个问题。作者给出了Python代码示例。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

（开始前先声明一下，该文章只适合初学者，文章会持续更新，时间不一定）

1.通过F12抓包，找到接口，点击进入其中

2.得到百度接口的URL，和请求方式，及嘎嘎多的参数，这些先不要看，很少用到，暂时看前两者就行

3.构建一个爬虫访问百度首页时没有返回数据，而是给了一些不知所云的数据，ctrl+f 进行检索‘百度一下’，发现并没有该数据，状态是OK的，说明链接没有问题，数据被反爬了

4.发现这种情况其实只需要添加一个参数即可，打开刚刚抓包的页面，往下翻，找到User-Agent参数，把它复制过来

5.添加该参数，在进行访问，就OK了，这个参数就是指定我们这个访问是什么系统什么浏览器进行的访问

6.详细代码

import requests  # 导包

url = 'https://www.baidu.com/'  # URL网址

# 添加参数（这个参数就是指定我们这个访问是什么系统什么浏览器进行的访问）
headers = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/122.0.0.0 Safari/537.36'
}

html = requests.get(url=url)  # 对该网页进行访问

print(html.text)  # 打印访问的结果