深网中的信息收集 deep web

最新推荐文章于 2025-07-10 10:18:46 发布

翻译最新推荐文章于 2025-07-10 10:18:46 发布 · 5k 阅读

31 ·

CC 4.0 BY-SA版权

原文链接：http://deep-web.org

信息检索专栏收录该内容

4 篇文章

订阅专栏

本文探讨了深网与表网的区别，深网占互联网的90%，包含大量未索引的信息，如学术数据库和政府档案。介绍了研究深网的工具，如SourceDeck和Zotero，以及评估数据源权威性的方法，包括使用泰勒计分卡审核作者信誉。

In our world, knowledge is power, timing is critical, accuracy is essential.

1. 深网&表网介绍

Google，Bing和其他引擎使用蜘蛛机器人来爬网并索引内容，无法抓取到数据的原因：1）无法到达：eg.需要登录的商业数据库 ,2) 机器人只能读取html，机器人无法读取内容有图片、电影、没有元数据的pdf文件或其他非html内容。
保守的最佳猜测是90％的Internet是Deep Web，而占10％的表网Surface Web就是可以被常规搜索引擎索引到的。专家认为，Deep Web的90％是可搜索的。估计Deep Web中有30％是商业数据库，而20％是军事数据库。因此使用正确的工具和方法，可以免费搜索到大约50％的Deep Web。
Surface Web通常是公司，人员和博客作者的网站。但是普通的个人网站上的信息，权威性不高，需要对来源和引用进行审核（很困难）。
深网将包含法院记录，人口普查记录的图像，也可能包含旧报纸的档案。深网主要是高度权威的学术数据库和政府档案。与Surface Web相比，对资源进行审核要容易得多，而且速度更快。但深网无法通过表网看到。图源网站

2. 研究深网的工具

数据是原始的、未经组织的、未经处理的事实；在上下文，结构或组织中处理数据得到的是信息。
初始数据分析是关于数据清理，然后审查数据，重新组织和可视化数据。
（口语） “brick wall” means Simply to hit a dead end in your research effort.研究陷入僵局。

Source Deck 一个关键而简单的工具；是网站和离线资源的电子表格。它可以完成浏览器书签无法完成的工作–还可以让您对每个来源添加注释，说明如何使用它们，以及对它们的信任程度。
zotero 【快速入门指南】-- Firefox插件帮助保存论文或其他学术论文的引文信息，可用于深网研究。
maltego 一种关系映射工具，可帮助审查网站的权限；可用于开源情报（OSINT）和图形链接分析，收集和连接用于调查任务的信息；只要花1-2小时就可以学会如何使用它。

先在浅网中查找更多的信息

使用关键字制定 检索式； 搜索引擎很多，它们各有优势，但做的事都差不多：抓取网页并返回你想找到的内容，都使用布尔逻辑来缩小搜索范围；比如Google，Yahoo，Bing和Dogpile， PIPL， Zuula .多了解它们的特色有利于信息检索；
谷歌具有深层网络的特色的功能：图书搜索（book.google.com）搜索当前和出的绝版图书和学术搜索（scholar.google.com科学论文），这些也是可以被爬虫从元数据中的信息遍历到。

搜索工具：

Zuula.com
Scholar.google.com
dogpile.com
Deeperweb.com –通过博客，新闻，网络常规，研究搜索等方式搜索最佳匹配。
Touchgraph 漂亮的集群工具，通过它可以获得新资源

选择正确的数据源

原始的数据源是最接近我们的调查目标的信息或资料，因此由目击者或亲身经历的人写的第一手资料至关重要。eg如果有公开的嫌疑犯信息，则警方报告仍然是事件的主要来源。“
第二手资料可能会引用第一手资料，比如维基百科上的信息，Wiki本身不被视为主要来源。Wiki经常提示应在哪里找到主要来源。巨潮资讯网上关于企业信息的报道（企业官网的信息才是源头，才是第一手资料）

数据源的审核

对于从多个源头获得的信息，我们需要溯源，需要根据数据的权威性、数据可靠性、数据质量等方面来审核，也就是对数据源的排序/权限。eg事件发生时写的信件和日记，与为了迎合更大的市场而写的回忆录相比，可靠性更高。eg。比如使用谷歌地图时，它能为我们提供 A-B-C maps， mapquest
评估电子文档的价值，也就是衡量文档的“可信度”或“权威性”，毕竟网上充斥着各种垃圾邮件、诈骗信息；具体5个权限级别的特征请见美国的历史与计算协会杂志（JAHC）关于电子材料的权限级别

审核二手信息源的作者

审查secondary sources的作者权限等级：这些作者在分析，解释和解构事件以查找模式和得出结论，但有的时候他们会歪曲分析，把结论往自己的期望的方向推理，要避免被带偏。要会识别偏见。
先检查引用的资源是否虚假、不合适、无意义，再量化文章内容的权威性，还可以谷歌上搜索“ JAHC权限级别”
可以使用泰勒计分卡Taylor scorecard方法（如下表）审核这些二次创作者：从默认的“ 5”开始所有文章，从那里添加奖励或惩罚。最终的分数合计：

小于3分：作者几乎被忽略，
4-7分 ：作者可能有一定的可信度，但要谨慎，
8-14 ：可以放心地相信作者的信誉
15以上：高度可信

泰勒计分卡
+6 如果已知作者在同行评审的学术期刊上发表 -1 总是把“他们” 暗指为不清楚的阴谋组织（阴谋论）
+5 引用的文献是主要参考文献 -2 信息托管在“免费”网络托管或xxxxxx.blogspot.com之类的免费博客上
+3 文章托管在政府或大学的网站（.gov或.edu）上 -4 未为文章指定作者姓名（政府报告/警察报告）
+2 文章刊登在知名新闻媒体上（eg《纽约时报》
《华盛顿邮报》） -4 文章组织性很差，存在拼写和语法错误，这些指向肤浅的思想和研究
+2 如果作者在非同行评审的期刊上发表其他文章 +1 如果作者公开联系人电子邮件
+2 如果作者公开联系人的邮寄地址 +1 似乎是面向学术人员写的文章
+2 来自政府报告（不论报告年份）
或引用的文献是二次引用

审核互联网资源的步骤

从已知的资料中选个句子，用搜索引擎去搜，看是否可以找到元素网页，再对比作者和发布日期，看这个资料是不是从主要信息源复制来的；
信息的目标群体是学术人员还是大众？相对应地，能否由此了解作者的学术水平背景；
对于原始网页和站点，分析域扩展名：是* .com，*。org，*。net吗？或* .edu 或* .mil（军事）；关于域扩展名请见信息检索；
查看整个域，看网站是免费博客服务还是专门的博客网站；
对于匿名作者专用的博客/网站，使用“ WhoIs”功能来查看谁拥有该网站。或者用这个找出域的所有者的名字和地址
用反向IP查找此人可能拥有的其他网站；比如 websiteneighbors 查看同一服务器上还有哪些其他网站。eg.如果有45个网站，也许作者拥有2-3个网站，那么它们很可能位于同一台服务器上。因此必须查找所有45个网站的“ WhoIs”信息，以查找他拥有的2-3个网站。
从上到下检查网站，查看是否有“联系我们”页面。有邮件吗？它去哪个域？检查“隐私政策”页面，看看是否有提及的公司。使用时，请在“法律”页面中检查名称（如果有的话）。有版权吗？是谁的名字？
一旦有了作者的名字，转入深网进行背景检查。从Pipl.com开始，然后从Linkedin.com开始，然后从那里延伸下去。
eg查外国人：他/她有执照吗？检查州许可网站。查找主题的主要论坛并搜索其姓氏或名字。通常，论坛可以设置一个城市，用于消除通用名称的歧义，提供可能的匹配。
使用网站上的“与我们联系”{‘contact us’ form }并发送消息以尝试获得答复。通常，这些网络表单将转发给电子邮件，并且来自其电子邮件帐户的任何回复都会带有身份信息。

深网搜索引擎

见搜索引擎篇

反向图片搜索（Reverse Image Search）：通过上传图片或者粘贴图片url，然后列出有相同图片出现的网页。Yandex在反向图片搜索方面比Google、Bing或TinEye更好。

商业深层网络数据库

美国的许多图书馆都有许可证，允许其用户免费访问商业数据库，比如

Findlaw –有关法律和法院案件的一切

北极光Northern Light –竞争情报，商业分析，产品开发和技术研究。

Intellus –背景检查的良好来源
Intelius - Public Records Information 背景调查，联系信息，地址，犯罪记录，电话号码，社交媒体，照片，资产等公共记录报告
Xrefer —基于236个标题和290万以上条目的付费数据库。
LexisNexis -被称为全球最大的公共记录，未发布的意见，法律，新闻和商业信息的集合。超过35,000个在线资源。
Get Abstracts 获取摘要 -大型在线图书馆，提供8,000多种商业书籍摘要。是获得最佳企业头衔的最有效方法。
Forrester研究 —一家独立的技术和市场研究公司，发布有关各种主题的深入研究报告。
Factiva -在线收集约10,000个单个来源。
US Search 美国搜索 –背景调查和定位服务

OSINT- Open Source Intelligence 开源情报

从开放的第三方来源收集的情报；来自Hack3rcon的从安全顾问的角度研究OSInt的三个视频--YouTube

European Commission staff 的一个关于开源情报的讲座，by Clive Best 克莱夫·贝斯特
其实ytb上一大堆教程，输关键字 Intelligence Analysis 就可以找到很多学校的案例。

情报分析师资源和白皮书

不熟悉情报和分析技术可参考一下美国政府的两份文件：

Intelligence_analyst_toolbox 情报分析工具箱的基本概述，大约十二页
情报作为调查职能 –情报分析和基础知识入门，45页的PDF。
用算法策略指导情报分析--计算机方法 –有助于分析的一些算法的概述：包括关联分析（关联规则挖掘）、图论的greedy approximation algorithm、启发式算法、密集二部图的局部搜索算法、最大熵模型...etc
贝叶斯智能分析 declassified-baysian-analysis.pdf –来自中央情报局的使用贝叶斯分析的解密文件（14页PDF，以中东为例）。
情报周期：在专注于IMINT时，它适用于SIGINT，GEOINT，TECHINT，HUMINT等。

免费的贝叶斯软件

用贝叶斯信念网络可以估计不确定性较高的事件。；3个在.jar或java中运行的贝叶斯网络

OpenMarkov –比Bayesbuilder先进得多，其网站上也提供了教程。对于贝叶斯网络，OpenMarkov可以做更多。

Tetrad –是一个程序，用于创建因果模型和统计模型，从中模拟数据，进行估计，测试，预测以及搜索因果和统计模型。由NASA和海军研究办公室提供支持。

Bayesbuilder –最简单的学习方法。有几个缺点，但可以在一个小时内完成10节点模型。

OSINT 示例 eg 关于以色列电信在黎巴嫩的渗透，以色列与案件官员的业务安全，以色列招募情报资产;
   GSM(全球移动通信系统)底层技术中的基本不安全因素;

OSINT工具-osint.geekcq.com 、社会工程-案例篇、社工工具-

泰勒计分卡
+6	如果已知作者在同行评审的学术期刊上发表	-1	总是把“他们” 暗指为不清楚的阴谋组织（阴谋论）
+5	引用的文献是主要参考文献	-2	信息托管在“免费”网络托管或xxxxxx.blogspot.com之类的免费博客上
+3	文章托管在政府或大学的网站（.gov或.edu）上	-4	未为文章指定作者姓名（政府报告/警察报告）
+2	文章刊登在知名新闻媒体上（eg《纽约时报》《华盛顿邮报》）	-4	文章组织性很差，存在拼写和语法错误，这些指向肤浅的思想和研究
+2	如果作者在非同行评审的期刊上发表其他文章	+1	如果作者公开联系人电子邮件
+2	如果作者公开联系人的邮寄地址	+1	似乎是面向学术人员写的文章
+2	来自政府报告（不论报告年份）或引用的文献是二次引用