如何用最简单的Python爬虫采集整个网站

最新推荐文章于 2024-05-09 11:06:20 发布

qq^^614136809

最新推荐文章于 2024-05-09 11:06:20 发布

阅读量1.8k

点赞数

文章标签： 1024程序员节

本文链接：https://blog.csdn.net/D0126_/article/details/127486587

版权

在之前的文章中Python实现“维基百科六度分隔理论“之基础爬虫，我们实现了在一个网站上随机地从一个链接到另一个链接，但是，如果我们需要系统地把整个网站按目录分类，或者要搜索网站上的每一个页面，我们该怎么办？我们需要采集整个网站，但是那是一种非常耗费内存资源的过程，尤其是处理大型网站时，比较合适的工具就是用一个数据库来存储采集的资源，之前也说过。下面来说一下怎么做。
网站地图sitemap
请添加图片描述

网站地图，又称站点地图，它就是一个页面，上面放置了网站上需要搜索引擎抓取的所有页面的链接（注：不是所有页面，一般来说是所有文章链接。大多数人在网站上找不到自己所需要的信息时，可能会将网站地图作为一种补救措施。搜索引擎蜘蛛非常喜欢网站地图。
对于SEO，网站地图的好处：
1．为搜索引擎蜘蛛提供可以浏览整个网站的链接简单的体现出网站的整体框架出来给搜索引擎看；
2．为搜索引擎蜘蛛提供一些链接，指向动态页面或者采用其他方法比较难以到达的页面；
3．作为一种潜在的着陆页面，可以为搜索流量进行优化；
4．如果访问者试图访问网站所在域内并不存在的URL，那么这个访问者就会被转到“无法找到文件”的错误页面，而网站地图可以作为该页面的“准”内容。
数据采集
采集网站数据并不难，但是需要爬虫有足够的深度。我们创建一个爬虫，递归地遍历每个网站，只收集那些网站页面上的数据。一般的比较费时间的网站采集方法从顶级页面开始（一般是网站主页），然后搜索页面上的所有链接，形成列表，再去采集到的这些链接页面，继续采集每个页面的链接形成新的列表，重复执行。
很明显，这是一个复杂度增长很快的过程。加入每个页面有10个链接，网站上有5个页面深度，如果采集整个网站，一共得采集的网页数量是105，即100000个页面。