Python爬虫常见问题，带你轻松理解Python-Hook机制

2401_83974199

于 2024-04-01 15:37:01 发布

阅读量931

点赞数 15

分类专栏： 2024年程序员学习文章标签： python 爬虫开发语言

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/2401_83974199/article/details/137235458

版权

2024年程序员学习专栏收录该内容

254 篇文章 0 订阅

订阅专栏

（1）通过网址池的概念去管理所有的URL

（2）增量爬取就是不重复下载已经下载过的，让网址池记住那些已经下载过的URL；

（3）断点续爬，就是上次还没有爬取的URL这次接着爬，还是让网址池记住那些还没被爬取的URL

（4）爬虫的去重，让网址池记录URL的状态以避免重复爬取。

第五个问题、爬虫的部署问题，在公司是不是分布式爬虫系统比较多会涉及部署问题

爬虫的部署，不一定是分布式的。大规模的爬虫，突破了目标网站限制的爬虫才会涉及到分布式，分布式的好处是抓取速度提高，但是管理会比较复杂。

第六个问题、网页的自动解析？这个话题就包含很多子任务了：怎么自动抽取文章的内容，如何处理各种各样的时间格式，怎样处理翻页

（1）文章内容的提取，基本的是每种网页建立一个提取模板（正则表达式），好处是提取精准，坏处是工作量大，一旦稍微改版就失败。通过算法建立单一提取程序，基本上都可以提取，但是可能会有写杂质，比如文末的相关阅读。好处是，一劳永逸，不受改版限制。

（2）时间的提取，除了正则表达式之外似乎没有特别有效的方法。

（3）翻页的话，如果只是抓取，把该页的url提取出来继续抓；如何在提取内容时要把多页内容合并成一个网页，那就要特别处理。

第七个问题、爬新闻类的网站时，如何做好同一新闻，各网站相互转载，爬取时文本去重

比较著名的算法是，Google的simhash，但具体实践中比较复杂。网传百度的做法是把文章的最长一句话（或多句）做hash，这个hash值就是文章的唯一性代表（指纹），这个方法准确率很高，但是召回率比较低，一旦这最长的几句话改一个字就不能召回；我改进了该方法，对n句最长的话分别做hash，一个文章由n个指纹（如图人的是个指头指纹都不一样）确定唯一性。准确率和召回率都还不错。

第八个问题、异步爬虫的设计

（1）一个好的URL管理策略，见猿人学上的网址池相关文章；

网址池是一个“生产者-消费者”模型，爬虫从中取出url去下载，下载的html中提取新的url放入池中，告诉url池刚才拿出的url是否下载成功；再从池中取出url进行下载。。。url池是核心部件，它记录url的不同状态：

（a）下载成功

（b）下载失败n次

（c）正在下载

每次往池子添加url时都要检查url在池中的状态，避免重复下载。

（2）一个好的异步协程管理策略，见猿人学网站上的大规模异步新闻爬虫的文章。

每次从urlpool中提取n个url，生成n个异步下载的协程，通过一个变量记录协程的个数（也就是正在下载网页的个数）。

自我介绍一下，小编13年上海交大毕业，曾经在小公司待过，也去过华为、OPPO等大厂，18年进入阿里一直到现在。

深知大多数Python工程师，想要提升技能，往往是自己摸索成长或者是报班学习，但对于培训机构动则几千的学费，着实压力不小。自己不成体系的自学效果低效又漫长，而且极易碰到天花板技术停滞不前！

因此收集整理了一份《2024年Python开发全套学习资料》，初衷也很简单，就是希望能够帮助到想自学提升又不知道该从何学起的朋友，同时减轻大家的负担。

既有适合小白学习的零基础资料，也有适合3年以上经验的小伙伴深入学习提升的进阶课程，基本涵盖了95%以上Python开发知识点，真正体系化！

由于文件比较大，这里只是将部分目录大纲截图出来，每个节点里面都包含大厂面经、学习笔记、源码讲义、实战项目、讲解视频，并且后续会持续更新

如果你觉得这些内容对你有帮助，可以添加V获取：vip1024c （备注Python）

一、Python所有方向的学习路线

Python所有方向路线就是把Python常用的技术点做整理，形成各个领域的知识点汇总，它的用处就在于，你可以按照上面的知识点去找对应的学习资源，保证自己学得较为全面。

二、学习软件

工欲善其事必先利其器。学习Python常用的开发软件都在这里了，给大家节省了很多时间。

三、入门学习视频

我们在看视频学习的时候，不能光动眼动脑不动手，比较科学的学习方法是在理解之后运用它们，这时候练手项目就很适合了。

0.png?x-oss-process=image/watermark,type_d3F5LXplbmhlaQ,shadow_50,text_Q1NETiBA56iL5bqP5aqb56eD56eD,size_20,color_FFFFFF,t_70,g_se,x_16#pic_center)

关注

15
点赞
踩
8

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。