这篇文章结合我做的搜索引擎项目遇到的问题,做一个功能完善,易于扩展的爬虫还真是费心费力,虽然这些技术都被人研究过,但实际自己动手从零做起,还是会遇到很多很多问题,此文列举出一些我觉得比较难解决,或者比较难以发现,难以考虑周全的问题,用来给大家参考。可能有些问题下面没有给出我的解决方案,但我会不定期更新,最近太忙了。。。
1.如何构建一个功能易于扩展的爬虫。
2.如何构建一个架构易于扩展的爬虫。
3.如何构建一个自动分类的爬虫。
4.url 状态相互牵制,如何解决?比如,你要爬取 A 下面所有的 url ,也还会爬B下面的 url ,A 和 B 的过滤规则一样,但从 A 中得到的和从 B 中得到的 url 不是同一类型的,(比如,企业大全网,里面所有企业实体信息网页的 url 过滤规则是一样的,但从汽车类,和从航空类,进去得到的 url 自然不一样),你计划怎么实现。
5.如何实现一个多线程环境下的线程安全的网页缓存
6.