Python 爬虫心得

最新推荐文章于 2025-04-23 10:49:27 发布

Akatsukim

最新推荐文章于 2025-04-23 10:49:27 发布

阅读量4.1k

点赞数 1

分类专栏： Python 文章标签： Python

本文链接：https://blog.csdn.net/u012159933/article/details/81076395

版权

本文讲述了作者在进行Python爬虫时遇到‘Request unsuccessful’的问题，通过研究发现是网页<head>中的robots属性导致的。了解到NAME=ROBOTS和content=“noidex，nofollow”会屏蔽爬虫后，作者模拟浏览器行为，通过添加headers，特别是User-Agent和Referer，甚至在某些情况下使用cookie，成功解决了爬虫被限制的问题。然而，固定cookie的解决方案并不通用，作者计划后续改进。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

最近我写的爬虫在爬取数据的时候变得不太好用了，两三天前还是可以正常爬取数据的，今天运行的时候返回了空值。我打开源代码，将抓取的网页内容print出来看了一下，发现返回了这样一个网页：

<html style="height:100%">
	<head>
		<META NAME="ROBOTS" CONTENT="NOINDEX, NOFOLLOW">
		<meta name="format-detection" content="telephone=no">
		<meta name="viewport" content="initial-scale=1.0">
		<meta http-equiv="X-UA-Compatible" content="IE=edge,chrome=1">
	</head>
	<body style="margin:0px;height:100%">
		<iframe src="/_Incapsula_Resource?SWUDNSAI=9&xinfo=14-73717949-0%202CNN%20RT%281531788981588%200%29%20q%280%20-1%20-1%20-1%29%20r%280%20-1%29%20B12%288%2c881023%2c0%29&incident_id=810000430074365444-466505767058014910&edet=12&cinfo=08000000" frameborder=0 width="

最低0.47元/天解锁文章