In our world, knowledge is power, timing is critical, accuracy is essential.
1. 深网&表网介绍
- Google,Bing和其他引擎使用蜘蛛机器人来爬网并索引内容,无法抓取到数据的原因:1)无法到达:eg.需要登录的商业数据库 ,2) 机器人只能读取html,机器人无法读取内容有图片、电影、没有元数据的pdf文件或其他非html内容。
- 保守的最佳猜测是90%的Internet是Deep Web,而占10%的表网Surface Web就是可以被常规搜索引擎索引到的。专家认为,Deep Web的90%是可搜索的。估计Deep Web中有30%是商业数据库,而20%是军事数据库。因此使用正确的工具和方法,可以免费搜索到大约50%的Deep Web。
- Surface Web通常是公司,人员和博客作者的网站。但是普通的个人网站上的信息,权威性不高,需要对来源和引用进行审核(很困难)。
- 深网将包含法院记录,人口普查记录的图像,也可能包含旧报纸的档案。深网主要是高度权威的学术数据库和政府档案。与Surface Web相比,对资源进行审核要容易得多,而且速度更快。但深网无法通过表网看到。图源网站
2. 研究深网的工具
数据是原始的、未经组织的、未经处理的事实;在上下文,结构或组织中处理数据得到的是信息。
初始数据分析是关于数据清理,然后审查数据,重新组织和可视化数据。
(口语) “brick wall” means Simply to hit a dead end in your research effort.研究陷入僵局。
- Source Deck 一个关键而简单的工具;是网站和离线资源的电子表格。它可以完成浏览器书签无法完成的工作–还可以让您对每个来源添加注释,说明如何使用它们,以及对它们的信任程度。
- zotero 【快速入门指南】-- Firefox插件 帮助保存论文或其他学术论文的引文信息,可用于深网研究。
- maltego 一种关系映射工具,可帮助审查网站的权限 ;可用于开源情报(OSINT)和图形链接分析,收集和连接用于调查任务的信息 ;只要花1-2小时就可以学会如何使用它。
先在浅网中查找更多的信息
- 使用关键字制定 检索式; 搜索引擎很多,它们各有优势,但做的事都差不多:抓取网页并返回你想找到的内容,都使用布尔逻辑来缩小搜索范围;比如Google,Yahoo,Bing和Dogpile, PIPL, Zuula .多了解它们的特色有利于信息检索;
- 谷歌 具有深层网络的特色的功能:图书搜索(book.google.com)搜索当前和出的绝版图书和学术搜索(scholar.google.com科学论文),这些也是可以被爬虫从元数据中的信息遍历到。
搜索工具:
- Zuula.com
- Scholar.google.com
- dogpile.com
- Deeperweb.com –通过博客,新闻,网络常规,研究搜索等方式搜索最佳匹配。
- Touchgraph 漂亮的集群工具,通过它可以获得新资源
选择正确的数据源
- 原始的数据源是最接近我们的调查目标的信息或资料 ,因此由目击者或亲身经历的人写的第一手资料至关重要。eg如果有公开的嫌疑犯信息,则警方报告仍然是事件的主要来源。“
- 第二手资料可能会引用第一手资料,比如维基百科上的信息,Wiki本身不被视为主要来源。Wiki经常提示应在哪里找到主要来源。巨潮资讯网上关于企业信息的报道(企业官网的信息才是源头,才是第一手资料)
数据源的审核
- 对于从多个源头获得的信息,我们需要溯源,需要根据数据的权威性、数据可靠性、数据质量等方面来审核,也就是对数据源的排序/权限。eg事件发生时写的信件和日记,与为了迎合更大的市场而写的回忆录相比,可靠性更高。eg。比如使用谷歌地图时,它能为我们提供 A-B-C maps, mapquest
- 评估电子文档的价值,也就是衡量文档的“可信度”或“权威性”,毕竟网上充斥着各种垃圾邮件、诈骗信息;具体5个权限级别的特征请见 美国的历史与计算协会杂志(JAHC)关于电子材料的权限级别
审核二手信息源的作者
审查secondary sources的作者权限等级:这些作者在分析,解释和解构事件以查找模式和得出结论,但有的时候他们会歪曲分析,把结论往自己的期望的方向推理,要避免被带偏。要会识别偏见。
先检查引用的资源是否虚假、不合适、无意义,再量化文章内容的权威性,还可以谷歌上搜索“ JAHC权限级别”
可以使用泰勒计分卡Taylor scorecard方法(如下表)审核这些二次创作者:从默认的“ 5”开始所有文章,从那里添加奖励或惩罚。最终的分数合计:
- 小于3分:作者几乎被忽略,
- 4-7分 : 作者可能有一定的可信度,但要谨慎,
- 8-14 : 可以放心地相信作者的信誉
- 15以上 : 高度可信
泰勒计分卡 +6 如果已知作者在同行评审的学术期刊上发表 -1 总是把“他们” 暗指为不清楚的阴谋组织(阴谋论) +5 引用的文献是主要参考文献 -2 信息托管在“免费”网络托管或xxxxxx.blogspot.com之类的免费博客上 +3 文章托管在政府或大学的网站(.gov或.edu)上 -4 未为文章指定作者姓名(政府报告/警察报告) +2 文章刊登在知名新闻媒体上(eg《纽约时报》
《华盛顿邮报》)-4 文章组织性很差,存在拼写和语法错误,这些指向肤浅的思想和研究 +2 如果作者在非同行评审的期刊上发表其他文章 +1 如果作者公开联系人电子邮件 +2 如果作者公开联系人的邮寄地址 +1 似乎是面向学术人员写的文章 +2 来自政府报告(不论报告年份)
或引用的文献是二次引用
审核互联网资源的步骤
- 从已知的资料中选个句子,用搜索引擎去搜,看是否可以找到元素网页,再对比作者和发布日期,看这个资料是不是从主要信息源复制来的;
- 信息的目标群体是学术人员还是大众?相对应地,能否由此了解作者的学术水平背景;
- 对于原始网页和站点,分析域扩展名:是* .com,*。org,*。net吗?或* .edu 或* .mil(军事);关于域扩展名请见信息检索 ;
- 查看整个域,看网站是免费博客服务还是专门的博客网站;
- 对于匿名作者专用的博客/网站,使用“ WhoIs”功能来查看谁拥有该网站。或者用这个找出域的所有者的名字和地址
- 用反向IP查找 此人可能拥有的其他网站;比如 websiteneighbors 查看同一服务器上还有哪些其他网站。eg.如果有45个网站,也许作者拥有2-3个网站,那么它们很可能位于同一台服务器上。因此必须查找所有45个网站的“ WhoIs”信息,以查找他拥有的2-3个网站。
- 从上到下检查网站,查看是否有“联系我们”页面。有邮件吗?它去哪个域?检查“隐私政策”页面,看看是否有提及的公司。使用时,请在“法律”页面中检查名称(如果有的话)。有版权吗?是谁的名字?
- 一旦有了作者的名字,转入深网进行背景检查。从Pipl.com开始,然后从Linkedin.com开始,然后从那里延伸下去。
eg查外国人:他/她有执照吗?检查州许可网站。查找主题的主要论坛并搜索其姓氏或名字。通常,论坛可以设置一个城市,用于消除通用名称的歧义,提供可能的匹配。- 使用网站上的“与我们联系”{‘contact us’ form }并发送消息以尝试获得答复。通常,这些网络表单将转发给电子邮件,并且来自其电子邮件帐户的任何回复都会带有身份信息。
深网搜索引擎
反向图片搜索(Reverse Image Search):通过上传图片或者粘贴图片url,然后列出有相同图片出现的网页。Yandex在反向图片搜索方面比Google、Bing或TinEye更好。
商业深层网络数据库
美国的许多图书馆都有许可证,允许其用户免费访问商业数据库,比如
- Findlaw –有关法律和法院案件的一切
- 北极光Northern Light –竞争情报,商业分析,产品开发和技术研究。
- Intellus –背景检查的良好来源
- Intelius - Public Records Information 背景调查,联系信息,地址,犯罪记录,电话号码,社交媒体,照片,资产等公共记录报告
- Xrefer —基于236个标题和290万以上条目的付费数据库。
- LexisNexis -被称为全球最大的公共记录,未发布的意见,法律,新闻和商业信息的集合。超过35,000个在线资源。
- Get Abstracts 获取摘要 -大型在线图书馆,提供8,000多种商业书籍摘要。是获得最佳企业头衔的最有效方法。
- Forrester研究 —一家独立的技术和市场研究公司,发布有关各种主题的深入研究报告。
- Factiva -在线收集约10,000个单个来源。
- US Search 美国搜索 –背景调查和定位服务
OSINT- Open Source Intelligence 开源情报
从开放的第三方来源收集的情报;来自Hack3rcon的从安全顾问的角度研究OSInt的三个视频--YouTube
European Commission staff 的一个关于开源情报的讲座 ,by Clive Best 克莱夫·贝斯特
其实ytb上一大堆教程,输关键字 Intelligence Analysis 就可以找到很多学校的案例。
情报分析师资源和白皮书
不熟悉情报和分析技术可参考一下美国政府的两份文件:
- Intelligence_analyst_toolbox 情报分析工具箱的基本概述,大约十二页
- 情报作为调查职能 –情报分析和基础知识入门,45页的PDF。
- 用算法策略指导情报分析--计算机方法 –有助于分析的一些算法的概述:包括关联分析(关联规则挖掘)、图论的greedy approximation algorithm、启发式算法、密集二部图的局部搜索算法、最大熵模型...etc
- 贝叶斯智能分析 declassified-baysian-analysis.pdf –来自中央情报局的使用贝叶斯分析的解密文件(14页PDF,以中东为例)。
情报周期:在专注于IMINT时,它适用于SIGINT,GEOINT,TECHINT,HUMINT等。
免费的贝叶斯软件
用贝叶斯信念网络可以估计不确定性较高的事件。;3个在.jar或java中运行的贝叶斯网络
OpenMarkov –比Bayesbuilder先进得多,其网站上也提供了教程。对于贝叶斯网络,OpenMarkov可以做更多。
Tetrad –是一个程序,用于创建因果模型和统计模型,从中模拟数据,进行估计,测试,预测以及搜索因果和统计模型。由NASA和海军研究办公室提供支持。
Bayesbuilder –最简单的学习方法。有几个缺点,但可以在一个小时内完成10节点模型。
OSINT 示例 eg 关于以色列电信在黎巴嫩的渗透,以色列与案件官员的业务安全,以色列招募情报资产;
GSM(全球移动通信系统)底层技术中的基本不安全因素;
OSINT工具-osint.geekcq.com 、社会工程-案例篇、 社工工具-