python网络爬虫-采集整个网站

最新推荐文章于 2024-07-30 17:21:38 发布

perfecttshoot

最新推荐文章于 2024-07-30 17:21:38 发布

阅读量6.8k

点赞数 4

分类专栏： python网络爬虫文章标签：整个网站采集 python网络爬虫

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/wanght89/article/details/78020222

版权

上一篇文章中，实现了在一个网站上随机地从一个链接跳掉另一个链接。但是，如果需要系统地把整个网站按目录分类，或者要搜索网站上的每一个页面，就得采集整个网站，那是一种非常耗费内存资源的过程，尤其处理大型网站时，最合适的工具就是用一个数据库来储存采集的资源。

1. 深网和暗网

你可能听说过深网（deep Web）、暗网（dark Web）或者隐藏网络（hidden Web）之类的术语，尤其在最近的媒体中。它们是什么意思呢？深网是网络的一部分，与浅网（surface Web）对立。浅网是互联网上搜索引擎可以抓到的那部分网络。据不完全统计，互联网中其实约90%网络都是深网。因为谷歌不能做像表单提交这类事情，也找不到那些没有直接链接到顶层域名上的网页，或者因为有robots.txt禁止而不能查看网站，所以浅网的数量相对深网还是比较少的。

暗网，也被称为Darknet或者dark Internet，完全是另一种“怪兽”。它们也建立在已有的网络基础上，但是使用Tor客户端，带有运行在HTTP之上的新协议，提供了一个信息交换的安全隧道。这类暗网页面也是可以采集的，就像你采集其他网站一样，不过这些内容超出了本章的讨论范围。

和暗网不同，深网相对容易采集。可以让你采集那些Google爬虫机器人不能获取的深网信息。

2. 遍历整个网站的网络数据采集有许多好处：

（1）生成网站地图

使用爬虫采集整个网站，收集所有的链接，再把所有的页面整理成网站实际的形式。

（2）收集数据

最低0.47元/天解锁文章

关注

4
点赞
踩
14

收藏

觉得还不错? 一键收藏
1
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。