科普知识:深网和暗网

你可能听说过深网(deep Web)、暗网(dark Web)或隐藏网络(hidden Web)之类的术语,尤其是在最近的媒体中。它们是什么意思呢?

深网是网络的一部分,与浅网(surface Web)对立。浅网是互联网上搜索引擎可以抓到的那部分网络。据不完全统计,互联网中其实约 90% 的网络都是深网。因为谷歌不能做像表单提交这类事情,也找不到那些没有直接链接到顶层域名上的网页,或者因为有robots.txt 禁止而不能查看网站,所以浅网的数量相对深网还是比较少的。

暗网,也被称为 Darknet 或 dark Internet,完全是另一种“怪兽”。它们也建立在已有的网络基础上,但是使用Tor客户端,带有运行在 HTTP 之上的新协议,提供了一个信息交换的安全隧道。这类暗网页面也是可以采集的,就像你采集其他网站一样。

和暗网不同,深网是相对容易采集的。实际上,爬取的很多工具都是在采集那些Google爬虫机器人不能获取的深网信息。

阅读更多
版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.net/mubaios/article/details/78551145
个人分类: 网络数据采集
上一篇关于 urllib 与 urllib2的区别
下一篇Python 中的 split()函数
想对作者说点什么? 我来说一句

没有更多推荐了,返回首页

关闭
关闭
关闭