Python 脚本应对反爬虫机制

本文介绍了作者在使用Python脚本爬取CSDN博客时遇到521状态码的问题,这是CSDN的反爬虫策略。通过获取521页面的JavaScript脚本,执行获取新Cookie并验证其有效性来实现反反爬虫。核心代码集中在执行js脚本来获取Cookie的部分。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

一、背景

前两天写了一个简单的Python脚本,用来定期爬取我的 CSDN 账号下的 博客文章,脚本在定时任务上也成功运行了一段时间,但是最近发现,脚本运行有时候会失败,因为脚本写的比较简单,没有输出错误日志,所以定位了好久没有啥发现。今天脚本运行失败后,我再次手动运行,发现脚本中的接口调用 接口 status_code = 521,res.text 内容是html包裹了的压缩且加密了的JavaScript脚本,(为了方便查看我格式化了下)内容如下:

<html>
	<body>
		<script language="javascript">
			window.onload = setTimeout("dr(175)", 200);
			function dr(OB) {
     
				var qo, mo = "",
				no = "",
				oo = [0xbb, 0x9e, 0x1f, 0x4a, 0x87, 0xdc, 0x59, 0x86, 0xdc, 0x19, 0x8f, 0xda, 0x87, 0xde, 0x16, 0x49, 0x9a, 0xc7, 0x0a, 0x8f, 0x1f, 0x4f, 0x8b, 0xc7, 0xd6, 0x0f, 0x4a, 0x71, 0xb2, 0xfe, 0x29, 0x74, 0xa8, 0xf5, 0x3f, 0x79, 0xe7, 0x31, 0x67, 0xb2, 0xff, 0x65, 0xbe, 0x38, 0x63, 0xff, 0x29, 0xa3, 0x75, 0xa1, 0x3f, 0x6d, 0xe5, 0x63, 0x72, 0xbe, 0x38, 0xb5, 0x30, 0x7a, 0x4b, 0xc6, 0x42, 0xda, 0x5a, 0xd9, 0xb1, 0x2c, 0xac, 0x2e, 0x7a, 0xef, 0xa8, 0x26, 0xa6, 0xef, 0x6b, 0x00, 0x7b, 0xf7, 0x78, 0xa3, 0xf0, 0x66, 0xbe, 0xe7, 0x32, 0xaf, 0x2b, 0xc0, 0x07, 0x9f, 0xc8, 0x41, 0x8e, 0xd8, 0xa4, 0x40, 0x6c, 0xba, 0x3a, 0xb8, 0xf0, 0x72, 0xec, 0x62, 0xfb, 0x7a, 0x82, 0x03, 0x82, 0x1b, 0x9b, 0x18, 0xd4, 0x50, 0xd0, 0x51, 0xd4, 0x5d, 0xd2, 0x20, 0x6
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

小青龍

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值