2024年最新互联网防反爬机制的六种反爬技术大解析_反爬虫机制

最新推荐文章于 2025-03-27 22:00:05 发布

2401_84689346

最新推荐文章于 2025-03-27 22:00:05 发布

阅读量2.9k

点赞数 26

分类专栏：程序员文章标签：爬虫

本文链接：https://blog.csdn.net/2401_84689346/article/details/138387074

版权

程序员专栏收录该内容

115 篇文章

订阅专栏

前言

互联网时代，无论在工作上，还是生活上都离不开网络，而网络能给我们带来什么？

新闻，小说，资料，各行业的数据或者报表等等；

比如：快毕业了为了论文，在各种网站上爬取需要的数据进行分析；还有一些为了兴趣爱好，爬取各种类型的图片，视频，文章，数据等。

各网站的开发人员为了约束这种行为，开始绞尽脑汁，采取各种手段去约束爬虫，于是，有了反爬机制！

反爬虫

今天小编来和大家谈谈反爬技术。要了解反爬技术就必须要知道爬虫，所谓爬虫其实就是由计算机自动与服务器交互获取数据的工具。

目前常见而好用的反爬技术有七种，它们分别是：user-agent，验证码，封IP，滑块验证，关联请求上下文，JavaScript 参与运算以及提高数据获取成本。

如果对Python爬虫、数据分析、机器学习、人工智能、面试经验、接单兼职、代码画图、游戏代码感兴趣可以进到881744585,群内会有不定期的分享学习资料和有趣的代码。还会有技术大牛，业内同行一起交流技术

仔细分析这七种反爬技术

1、user-agent

数据请求头，最初级的反爬，只要在请求中模拟请求头即可轻松飘过。

解决方法：可以自己设置一下user-agent，或者更好的是，可以从一系列的user-agent里随机挑出一个符合标准的使用

无论是浏览器，程序，还是爬虫，在向服务器发起网络请求时，都会先发送一个请求头文件 headers

比如：

{
  "headers": {
    "Accept": "text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,image/apng,*/*;q=0.8,application/signed-exchange;v=b3;q=0.9", 
    "Accept-Encoding": "gzip, deflate, br", 
    "Accept-Language": "zh-CN,zh;q=0.9,zh-HK;q=0.8", 
    "Host": "httpbin.org", 
    "Sec-Fetch-Dest": "document", 
    "Sec-Fetch-Mode": "navigate", 
    "Sec-Fetch-Site": "none", 
    "Upgrade-Insecure-Requests": "1", 
    "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/81.0.4044.138 Safari/537.36", 
    "X-Amzn-Trace-Id": "Root=1-5fe2b4fe-6e4edc1c4dbbe85a3c25492b"
  }
}

# "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/81.0.4044.138 Safari/537.36"

请求头大部分的字段主要是浏览器向服务端 “表明自己的身份”用的，很多网站都会建立 user-agent 白名单，只有在正常范围内的 user-agent 才能正常访问。

user-agent 是一个阅读器标志，用户都是一中阅读器，网站很粗糙的辨别你有咩有作弊，必须要结构不同的阅读器标志，不然就会认为你是爬虫，宁杀错，不放过，你说气不气；

缺点：很容易伪造头部

处理方案：

修改阅读器标志，模拟其他阅读器的标志（定义一个标志库，随机获取一个），能够通过API接口实现各种阅读器的收集模拟；

# 定义 user-agent/标志库
# 第一种方法
def get_user_agent():
    """
    模拟headers的user-agent字段，
    返回一个随机的user-agent字典类型的键值对
    """
    agents = [
    "Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/68.0.3440.106 Safari/537.36",
    "Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/67.0.3396.99 Safari/537.36",
    "Mozilla/5.0 (Windows NT 10.0;) Gecko/20100101 Firefox/61.0",
    "Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/64.0.3282.186 Safari/537.36",
    "Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/62.0.3202.62 Safari/537.36",
    "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/45.0.2454.101 Safari/537.36",
    "Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 6.0)",
    "Mozilla/5.0 (Macintosh; U; PPC Mac OS X 10.5; en-US; rv:1.9.2.15) Gecko/20110303 Firefox/3.6.15",
    ]
    
    fakeheader = {}
    fakeheader['User-agent'] = agents[random.randint(0,len(agents))]
    return fakeheader

def get_html(url):
    try:
        r= requests.get(url, timeout=30,headers=get_user_agent())
        r.raise_for_status
        r.encoding = r.apparent_encding
        return r.status_code
   except:
    	return "someting wrong!"
    
 # 第二种方法
def get_html():
    agents = [...]
    headers = {
        'User-Agent': random.choice(user_agent_list),
    	'Referer': 'https://www.baidu.com',
        'Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,image/apng,*/*;q=0.8,application/signed-exchange;v=b3;q=0.9',
        'Accept-Encoding': 'gzip, deflate, br',
        'Accept-Language': 'en-US,en;q=0.9,zh-CN;q=0.8,zh;q=0.7',
        'Cookie': '...'
    }
    try:
        r= requests.get(url, timeout=30,headers=headers)
        r.raise_for_status
        r.encoding = r.apparent_encding
        return r.status_code
   except:
    	return "someting wrong!"

2、验证码

验证码是最常用的反爬虫措施，但简单验证码通过机器学习自动识别，通常正确率能达到50%以上甚至更高。

复杂验证码通过提交到专门的打码平台进行人工打码，依据验证码的复杂度，打码工人平均每码收1-2分钱，成本比较低。也同样容易被绕过，使得数据容易被爬取。

验证码（CAPTCHA）是“Completely Automated Public Turing test to tell Computers and Humans Apart”（全自动区分计算机和人类的图灵测试）的缩写，是一种区分用户是计算机还是人的公共全自动程序。可以防止：恶意破解密码、刷票、论坛灌水，有效防止某个黑客对某一个特定注册用户用特定程序暴力破解方式进行不断的登陆尝试，实际上用验证码是现在很多网站通行的方式，我们利用比较简易的方式实现了这个功能。这个问题可以由计算机生成并评判，但是必须只有人类才能解答。由于计算机无法解答CAPTCHA的问题，所以回答出问题的用户就可以被认为是人类。

（1）图片验证码

复杂性