爬虫代码中User-Agent应如何设置？_scrapy设置user-agent-CSDN博客

本文链接：https://blog.csdn.net/2401_87849163/article/details/145635809

在爬虫代码中设置User-Agent是模拟浏览器行为、避免被目标网站识别为爬虫的重要手段。以下是几种常见的方法来设置爬虫中的User-Agent：

1. 使用`requests`库设置`User-Agent`

requests库是Python中最常用的HTTP请求库之一，它允许在发送请求时通过headers参数设置请求头，包括User-Agent。

示例代码：

import requests

url = "https://example.com"
headers = {
    "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.3"
}
response = requests.get(url, headers=headers)
if response.status_code == 200:
    print("请求成功")
    print(response.text)
else:
    print(f"请求失败，状态码: {response.status_code}")

2. 使用`BeautifulSoup`和`requests`设置`User-Agent`

如果你使用BeautifulSoup来解析HTML内容，同样需要通过requests库发送请求，并设置User-Agent。

示例代码：

import requests
from bs4 import BeautifulSoup

url = "https://example.com"
headers = {
    "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.3"
}
response = requests.get(url, headers=headers)
if response.status_code == 200:
    soup = BeautifulSoup(response.text, 'html.parser')
    print(soup.prettify())
else:
    print(f"请求失败，状态码: {response.status_code}")

3. 使用`Scrapy`框架设置`User-Agent`

如果你使用Scrapy框架来构建爬虫，可以在settings.py文件中全局设置User-Agent，或者在每个请求中动态设置。

全局设置`User-Agent`（在`settings.py`中）：

USER_AGENT = 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.3'

动态设置`User-Agent`（在爬虫中）：

import scrapy

class ExampleSpider(scrapy.Spider):
    name = "example"
    start_urls = ["https://example.com"]

    def start_requests(self):
        for url in self.start_urls:
            yield scrapy.Request(url=url, callback=self.parse, headers={
                "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.3"
            })

    def parse(self, response):
        self.logger.info("成功获取页面")

4. 使用随机`User-Agent`

为了避免被目标网站识别出规律性请求，可以使用随机的User-Agent。可以通过fake_useragent库生成随机的User-Agent。

安装`fake_useragent`库：

pip install fake_useragent

示例代码：

from fake_useragent import UserAgent
import requests

ua = UserAgent()
url = "https://example.com"
headers = {
    "User-Agent": ua.random
}
response = requests.get(url, headers=headers)
if response.status_code == 200:
    print("请求成功")
    print(response.text)
else:
    print(f"请求失败，状态码: {response.status_code}")

5. 注意事项

选择合适的User-Agent：User-Agent字符串应该模仿一个真实用户的浏览器。可以从浏览器开发者工具中复制User-Agent字符串。
更新User-Agent：随着浏览器版本的更新，User-Agent字符串也会变化。定期更新你的User-Agent字符串，以保持其真实性。
避免滥用：虽然设置User-Agent可以减少被识别为爬虫的风险，但过度请求仍然可能触发网站的反爬机制。合理设置请求频率和遵守网站的robots.txt规定是非常重要的。
尊重网站政策：在使用爬虫时，始终遵守目标网站的使用条款和隐私政策，不要进行任何可能侵犯版权或隐私的行为。