python高级—— 从趟过的坑中聊聊爬虫、反爬、反反爬，附送一套高级爬虫试题

最新推荐文章于 2024-09-20 21:48:23 发布

大咖爱爬虫

最新推荐文章于 2024-09-20 21:48:23 发布

阅读量6.9k

点赞数 9

分类专栏： Python学习数据分析网络爬虫文章标签： Python

本文链接：https://blog.csdn.net/ajian6/article/details/101773899

版权

本文介绍了作者在Python爬虫实践中遇到的各种问题和反爬机制，包括法律问题、爬虫分类、爬虫工具选择、常见问题及反爬策略。详细讨论了User-Agent、Cookies、请求头中的特殊字段、请求头的Accept、referer、登录验证、token验证等反爬技术，以及如何应对这些问题。此外，还分享了一套高级爬虫试题，供读者自我检测和提升。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

前言：

时隔数月，我终于又更新博客了，然而，在这期间的粉丝数也就跟着我停更博客而涨停了，唉

是的，我改了博客名，不知道为什么要改，就感觉现在这个名字看起来要洋气一点。

那么最近到底咋不更新博客了呢？说起原因那就多了，最主要的还是没时间了，是真的没时间，前面的那些系列博客都还没填坑完毕的（后续都会填上的）

最近有点空余就一直在开发我的项目，最近做了两个项目：

IPproxy，看名字就知道啦，就是一个ip代理池，爬取了各大免费的代理网站，然后检测可用性， github地址相关的介绍github上已经说明了

get_jobs，爬取了几十个招聘类网站的数据， github地址同样的，相关的介绍github上已经说明了

根据以上爬取的大概也许可能接近上百个网站吧，加上我初学爬虫的时候爬的网站，现在也算是爬了有接近上千个网站了，对爬虫也算是小有心得了，下面就开始说说吧

以下是总结式的解析，个人觉并不太适合零基础的朋友，也不会有过多的图文展示，当然我也会尽量的把问题说清楚点，而且我也不是爬虫大佬，只是根据最近的爬虫经历总结出的经验，我确实不太建议零基础的朋友往下看，你可以先看看我之前的博客文章或者看其他大神的文章之后再来看我这篇，因为爬虫涉及了前端和后端还有前后端之间的交互等的技术，一些底层的原理之类的，不是说不给零基础的朋友看，是如果没这些知识做基础可能看不懂（不是瞧不起小白的意思，我也是小白过来的）。当然爬虫界的大佬们如果偶然点开，那还请多多包涵，我目前技术确实还有待提升

爬虫前提：

1.法律问题

最近时不时总是冒出一两个因为爬虫入狱的新闻

不一一截图了，自己网上搜吧，其实现在越来越多了

有朋友要说，“为什么我学个爬虫都被抓吗？我犯法了吗？” 这个目前还真的不好说，主要是什么，目前爬虫相关的就只有一个robots协议，而我们都知道robots协议是针对于通用爬虫而言的，而聚焦爬虫（就是我们平常写的爬虫程序）则没有一个严格法律说禁止什么的，但也没有说允许，所以目前的爬虫就处在了一个灰色地带，而很多情况下是真的不好判定你到底是违法还是不违法的。好消息是，据说有关部门正在起草爬虫法，不久便会颁布，后续就可以按照这个标准来进行了。