绕过HTTPS请求中的TLS特征识别及反爬机制

102 篇文章 0 订阅
101 篇文章 0 订阅

095e96ecc98a41e6d5cf511ec3ab72bc.png
在使用 urllib.request 库进行 HTTPS 请求时,可能会出现 TLS 特征被识别的情况。这通常是因为目标网站的反爬机制检测到了你的请求不符合正常浏览器的请求特征,或者你的请求被检测到是从程序中发出的,而非浏览器。其中,一些反爬机制会检测请求头部中的 User-Agent 字段,以此来判断请求是否来自正常浏览器。如果 User-Agent 字段为 Python/urllib 或者其他非浏览器的 User-Agent 字段,就会被判定为爬虫。
另外,反爬机制还会检测 TLS 特征,如 TLS 版本、握手方式、常量等,以此来判断请求是否为程序发出的。如果 TLS 特征异常,就会被判定为爬虫。因此,我们可以通过修改请求头部中的 User-Agent 字段来伪装成浏览器,或者使用代理 IP 来隐藏请求的真实 IP,以绕过反爬机制。同时,我们还可以通过更改 TLS 特征,如修改 TLS 版本、握手方式等来欺骗反爬机制。
如果出现 TLS 特征被识别的情况,可以考虑以下一些方法来绕过反爬机制:使用代理 IP、修改请求头部信息、降低请求频率或使用其他语言库,如 aiohttp、 Scrapy、Selenium 等,来进行复杂的反爬处理。
下面以百度百科网站做测试,使用aiohttp、爬虫代理加强版IP和随机User-Agent实现信息采集:

import urllib.parse
import asyncio
import aiohttp
import lxml.html
import random

URL_TEMPLATE = 'https://baike.baidu.com/item/{}'
HEADERS_LIST = [
    'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/67.0.3396.99 Safari/537.36',
    'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.36 Edge/16.16299',
    'Mozilla/5.0 (Windows NT 10.0; WOW64; Trident/7.0; AS; rv:11.0) like Gecko',
    # 添加更多 User-Agent
]

# 代理服务器( www.16yun.cn)
proxyHost = "t.16yun.cn"
proxyPort = "31111"

# 代理验证信息
proxyUser = "16yun"
proxyPass = "16ip"

PROXIES = "http://%(user)s:%(pass)s@%(host)s:%(port)s" % {
    "host" : proxyHost,
    "port" : proxyPort,
    "user" : proxyUser,
    "pass" : proxyPass,
}

async def query(content):
    async with aiohttp.ClientSession(headers=get_random_headers()) as session:
        url = URL_TEMPLATE.format(urllib.parse.quote(content))        
        async with session.get(url, proxy=PROXIES) as response:
            html = lxml.html.fromstring(await response.read())
            sen_list = html.xpath('//div[contains(@class,"lemma-summary") or contains(@class,"lemmaWgt-lemmaSummary")]//text()')
            sen_list_after_filter = [item.strip('\n') for item in sen_list]
            return '\n'.join(sen_list_after_filter).encode('utf-8')

async def main():
    async for content in get_input():
        result = await query(content)
        print("查询结果:\n%s" % result.decode('utf-8'))

async def get_input():
    while True:
        yield input('查询词语:')

def get_random_headers():
    return {'User-Agent': random.choice(HEADERS_LIST)}

if __name__ == '__main__':
    asyncio.run(main())

这段代码实现了一个基于 asyncio 和 aiohttp 的异步百度百科查询工具,具有较高的并发性能和响应速度,同时通过爬虫代理加强版IP和随机User-Agent能够提高采集的效率。

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值