Python爬虫：设置随机 User-Agent

最新推荐文章于 2024-05-13 04:25:01 发布

灬沙海灬

最新推荐文章于 2024-05-13 04:25:01 发布

阅读量511

点赞数 6

文章标签： python 爬虫开发语言

本文链接：https://blog.csdn.net/adendean/article/details/136480567

版权

Python爬虫：设置随机 User-Agent

在Python中编写爬虫时，为了模拟真实用户的行为并防止被服务器识别为爬虫，通常需要设置随机的User-Agent。你可以使用fake-useragent库来实现这一功能。首先，你需要安装fake-useragent库：

pip install fake-useragent

然后，你可以按照以下示例代码来设置随机User-Agent：

import requests
from fake_useragent import UserAgent
def get_random_user_agent():
    ua = UserAgent()
    return ua.random
def crawl_url(url):
    headers = {'User-Agent': get_random_user_agent()}
    response = requests.get(url, headers=headers)
    if response.status_code == 200:
        return response.text
    else:
        print("Failed to fetch URL:", response.status_code)
if __name__ == "__main__":
    url = "https://example.com"  # 要爬取的网址
    html_content = crawl_url(url)
    print(html_content)  # 输出网页内容

编辑

这个示例中，get_random_user_agent() 函数使用fake-useragent库来获取一个随机的User-Agent字符串，并将其用于构造请求头。然后，crawl_url() 函数发送带有随机User-Agent的HTTP请求，并返回网页内容。

记得在使用爬虫时，要尊重网站的robots.txt文件，以避免访问被禁止的页面。同时，避免发送过于频繁的请求，以免对服务器造成负担。

灬沙海灬

关注

6
点赞
踩
9

收藏

觉得还不错? 一键收藏
0
评论
Python爬虫：设置随机 User-Agent

记得在使用爬虫时，要尊重网站的robots.txt文件，以避免访问被禁止的页面。同时，避免发送过于频繁的请求，以免对服务器造成负担。在Python中编写爬虫时，为了模拟真实用户的行为并防止被服务器识别为爬虫，通常需要设置随机的User-Agent。url = "https://example.com" # 要爬取的网址。库来获取一个随机的User-Agent字符串，并将其用于构造请求头。函数发送带有随机User-Agent的HTTP请求，并返回网页内容。Python爬虫：设置随机 User-Agent。
复制链接

扫一扫