常见的反爬手段和解决思路

最新推荐文章于 2023-10-08 10:18:42 发布

喜欢吃蔬菜~

最新推荐文章于 2023-10-08 10:18:42 发布

阅读量2.9k

点赞数 1

分类专栏：爬虫

本文链接：https://blog.csdn.net/huwei_1993/article/details/81675781

版权

爬虫专栏收录该内容

11 篇文章 0 订阅

订阅专栏

1.通过headers中的User-Agent字段来反爬

随机生成User-Agent：

import random

def get_ua():
    first_num = random.randint(55, 62)
    third_num = random.randint(0, 3200)
    fourth_num = random.randint(0, 140)
    os_type = [
        '(Windows NT 6.1; WOW64)', '(Windows NT 10.0; WOW64)', '(X11; Linux x86_64)',
        '(Macintosh; Intel Mac OS X 10_12_6)'
    ]
    chrome_version = 'Chrome/{}.0.{}.{}'.format(first_num, third_num, fourth_num)

    ua = ' '.join(['Mozilla/5.0', random.choice(os_type), 'AppleWebKit/537.36',
                   '(KHTML, like Gecko)', chrome_version, 'Safari/537.36']
                  )
    return ua

2. 通过referer字段或者是其他字段来反爬

通过referer字段来反爬，我们只需要添加上即可

3.通过cookie来反爬

如果目标网站不需要登录每次请求带上前一次返回的cookie，比如requests模块的session
如果目标网站需要登录准备多个账号，通过一个程序获取账号对应的cookie，组成cookie池，其他程序使用这些cookie

4.通过js来反爬

使用selenium

5.通过验证码来反爬

通过打码平台或者是机器学习的方法识别验证码，其中打码平台廉价易用

6.通过ip地址来反爬

同一个ip大量请求了对方服务器，有更大的可能性会被识别为爬虫，对应的通过购买高质量的ip的方式能够结局问题

7.通过自定义字体来反爬

解决思路：切换到手机版

8.通过css来反爬

解决思路：计算css的偏移

喜欢吃蔬菜~

关注

1
点赞
踩
7

收藏

觉得还不错? 一键收藏
0
评论
常见的反爬手段和解决思路

1.通过headers中的User-Agent字段来反爬随机生成User-Agent：import randomdef get_ua(): first_num = random.randint(55, 62) third_num = random.randint(0, 3200) fourth_num = random.randint(0, 140) ...
复制链接

扫一扫