深网中的信息收集 deep web

In our world, knowledge is power, timing is critical, accuracy is essential.

1. 深网&表网介绍

  • Google,Bing和其他引擎使用蜘蛛机器人来爬网并索引内容,无法抓取到数据的原因:1)无法到达:eg.需要登录的商业数据库 ,2) 机器人只能读取html,机器人无法读取内容有图片、电影、没有元数据的pdf文件或其他非html内容。
  •     保守的最佳猜测是90%的Internet是Deep Web,而占10%的表网Surface Web就是可以被常规搜索引擎索引到的。专家认为,Deep Web的90%是可搜索的。估计Deep Web中有30%是商业数据库,而20%是军事数据库。因此使用正确的工具和方法,可以免费搜索到大约50%的Deep Web。
  • Surface Web通常是公司,人员和博客作者的网站。但是普通的个人网站上的信息,权威性不高,需要对来源和引用进行审核(很困难)。
  • 深网将包含法院记录,人口普查记录的图像,也可能包含旧报纸的档案。深网主要是高度权威的学术数据库和政府档案。与Surface Web相比,对资源进行审核要容易得多,而且速度更快。但深网无法通过表网看到。图源网站

 

2.  研究深网的工具

数据是原始的、未经组织的、未经处理的事实;在上下文,结构或组织中处理数据得到的是信息。
初始数据分析是关于数据清理,然后审查数据,重新组织和可视化数据。
(口语) “brick wall” means Simply to hit a dead end in your research effort.研究陷入僵局。

  1. Source Deck   一个关键而简单的工具;是网站和离线资源的电子表格。它可以完成浏览器书签无法完成的工作–还可以让您对每个来源添加注释,说明如何使用它们,以及对它们的信任程度。
  2. zotero 【快速入门指南】-- Firefox插件  帮助保存论文或其他学术论文的引文信息,可用于深网研究。
  3. maltego   一种关系映射工具,可帮助审查网站的权限 ;可用于开源情报(OSINT)和图形链接分析,收集和连接用于调查任务的信息 ;只要花1-2小时就可以学会如何使用它。 

 先在浅网中查找更多的信息

  •   使用关键字制定 检索式; 搜索引擎很多,它们各有优势,但做的事都差不多:抓取网页并返回你想找到的内容,都使用布尔逻辑来缩小搜索范围;比如GoogleYahooBingDogpile,  PIPL, Zuula .多了解它们的特色有利于信息检索; 
  • 谷歌  具有深层网络的特色的功能:图书搜索(book.google.com)搜索当前和出的绝版图书和学术搜索(scholar.google.com科学论文),这些也是可以被爬虫从元数据中的信息遍历到。

搜索工具:

  1. Zuula.com
  2. Scholar.google.com
  3. dogpile.com
  4. Deeperweb.com  –通过博客,新闻,网络常规,研究搜索等方式搜索最佳匹配。
  5. Touchgraph      漂亮的集群工具,通过它可以获得新资源

选择正确的数据源

  •  原始的数据源是最接近我们的调查目标的信息或资料 ,因此由目击者或亲身经历的人写的第一手资料至关重要。eg如果有公开的嫌疑犯信息,则警方报告仍然是事件的主要来源。“
  • 第二手资料可能会引用第一手资料,比如维基百科上的信息,Wiki本身不被视为主要来源。Wiki经常提示应在哪里找到主要来源。巨潮资讯网上关于企业信息的报道(企业官网的信息才是源头,才是第一手资料)
     

数据源的审核

  • 对于从多个源头获得的信息,我们需要溯源,需要根据数据的权威性、数据可靠性、数据质量等方面来审核,也就是对数据源的排序/权限。eg事件发生时写的信件和日记,与为了迎合更大的市场而写的回忆录相比,可靠性更高。eg。比如使用谷歌地图时,它能为我们提供 A-B-C maps, mapquest
  • 评估电子文档的价值,也就是衡量文档的“可信度”或“权威性”,毕竟网上充斥着各种垃圾邮件、诈骗信息;具体5个权限级别的特征请见 美国的历史与计算协会杂志(JAHC)关于电子材料的权限级别

审核二手信息源的作者

审查secondary sources的作者权限等级:这些作者在分析,解释和解构事件以查找模式和得出结论,但有的时候他们会歪曲分析,把结论往自己的期望的方向推理,要避免被带偏。要会识别偏见。
先检查引用的资源是否虚假、不合适、无意义,再量化文章内容的权威性,还可以谷歌上搜索“ JAHC权限级别”
可以使用泰勒计分卡Taylor scorecard方法(如下表)审核这些二次创作者:从默认的“ 5”开始所有文章,从那里添加奖励或惩罚。最终的分数合计:

  • 小于3分:作者几乎被忽略,
  • 4-7分  : 作者可能有一定的可信度,但要谨慎,
  • 8-14   :  可以放心地相信作者的信誉
  • 15以上  : 高度可信

 
                                                                                             泰勒计分卡
+6如果已知作者在同行评审的学术期刊上发表-1总是把“他们” 暗指为不清楚的阴谋组织(阴谋论)
+5引用的文献是主要参考文献-2信息托管在“免费”网络托管或xxxxxx.blogspot.com之类的免费博客上
+3文章托管在政府或大学的网站(.gov或.edu)上-4未为文章指定作者姓名(政府报告/警察报告)
+2 文章刊登在知名新闻媒体上(eg《纽约时报》
《华盛顿邮报》)
-4文章组织性很差,存在拼写和语法错误,这些指向肤浅的思想和研究
+2如果作者在非同行评审的期刊上发表其他文章+1如果作者公开联系人电子邮件
+2如果作者公开联系人的邮寄地址+1 似乎是面向学术人员写的文章
+2 来自政府报告(不论报告年份)
或引用的文献是二次引用
 

 

 

 审核互联网资源的步骤

  1. 从已知的资料中选个句子,用搜索引擎去搜,看是否可以找到元素网页,再对比作者和发布日期,看这个资料是不是从主要信息源复制来的;
  2. 信息的目标群体是学术人员还是大众?相对应地,能否由此了解作者的学术水平背景;
  3. 对于原始网页和站点,分析域扩展名:是* .com,*。org,*。net吗?或* .edu 或* .mil(军事);关于域扩展名请见信息检索 ;
  4. 查看整个域,看网站是免费博客服务还是专门的博客网站;
  5. 对于匿名作者专用的博客/网站,使用“ WhoIs”功能来查看谁拥有该网站。或者用这个找出域的所有者的名字和地址
  6. 用反向IP查找  此人可能拥有的其他网站;比如 websiteneighbors 查看同一服务器上还有哪些其他网站。eg.如果有45个网站,也许作者拥有2-3个网站,那么它们很可能位于同一台服务器上。因此必须查找所有45个网站的“ WhoIs”信息,以查找他拥有的2-3个网站。
  7. 从上到下检查网站,查看是否有“联系我们”页面。有邮件吗?它去哪个域?检查“隐私政策”页面,看看是否有提及的公司。使用时,请在“法律”页面中检查名称(如果有的话)。有版权吗?是谁的名字?
  8. 一旦有了作者的名字,转入深网进行背景检查。从Pipl.com开始,然后从Linkedin.com开始,然后从那里延伸下去。
    eg查外国人:他/她有执照吗?检查州许可网站。查找主题的主要论坛并搜索其姓氏或名字。通常,论坛可以设置一个城市,用于消除通用名称的歧义,提供可能的匹配。
  9. 使用网站上的“与我们联系”{‘contact us’ form }并发送消息以尝试获得答复。通常,这些网络表单将转发给电子邮件,并且来自其电子邮件帐户的任何回复都会带有身份信息。

深网搜索引擎

 见 搜索引擎篇

反向图片搜索(Reverse Image Search)通过上传图片或者粘贴图片url,然后列出有相同图片出现的网页。Yandex在反向图片搜索方面比Google、Bing或TinEye更好。

商业深层网络数据库

美国的许多图书馆都有许可证,允许其用户免费访问商业数据库,比如

  • Findlaw –有关法律和法院案件的一切
  • Intellus –背景检查的良好来源
  • Intelius - Public Records Information  背景调查,联系信息,地址,犯罪记录,电话号码,社交媒体,照片,资产等公共记录报告
  • Xrefer  —基于236个标题和290万以上条目的付费数据库。
  • LexisNexis -被称为全球最大的公共记录,未发布的意见,法律,新闻和商业信息的集合。超过35,000个在线资源。
  • Get Abstracts 获取摘要 -大型在线图书馆,提供8,000多种商业书籍摘要。是获得最佳企业头衔的最有效方法。
  • Forrester研究 —一家独立的技术和市场研究公司,发布有关各种主题的深入研究报告。
  • Factiva -在线收集约10,000个单个来源。
  • US Search 美国搜索 –背景调查和定位服务

OSINT- Open Source Intelligence 开源情报

   从开放的第三方来源收集的情报;来自Hack3rcon的从安全顾问的角度研究OSInt的三个视频--YouTube

 European Commission staff 的一个关于开源情报的讲座 ,by Clive Best 克莱夫·贝斯特
其实ytb上一大堆教程,输关键字
Intelligence Analysis  就可以找到很多学校的案例。


情报分析师资源和白皮书

不熟悉情报和分析技术可参考一下美国政府的两份文件:

免费的贝叶斯软件

用贝叶斯信念网络可以估计不确定性较高的事件。;3个在.jar或java中运行的贝叶斯网络

  • OpenMarkov –比Bayesbuilder先进得多,其网站上也提供了教程。对于贝叶斯网络,OpenMarkov可以做更多。

  • Tetrad –是一个程序,用于创建因果模型和统计模型,从中模拟数据,进行估计,测试,预测以及搜索因果和统计模型。由NASA和海军研究办公室提供支持。

  • Bayesbuilder –最简单的学习方法。有几个缺点,但可以在一个小时内完成10节点模型。

OSINT 示例 eg 关于以色列电信在黎巴嫩的渗透,以色列与案件官员的业务安全,以色列招募情报资产;
   GSM(全球移动通信系统)底层技术中的基本不安全因素; 

OSINT工具-osint.geekcq.com 、社会工程-案例篇、 社工工具-

  • 3
    点赞
  • 29
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值