菜鸟侦探挑战数据分析pdf_历史学家和侦探使用开源工具跟踪数据

菜鸟侦探挑战数据分析pdf

历史学家和侦探有许多相似之处:他们的调查工作艰巨,并且只关注细节。 少量的信息通常是模糊,矛盾和复杂的。 在不同的来源中,人们的名字可能会使用不同的拼写,尤其是涉及一种以上语言时。 还有一个时间成分–他们需要知道每个特定时间点每个可能的罪魁祸首在哪里。 最后,他们可能发现杀死那位老妇的不是一名园丁,而是两名。

传统上,历史学家(和侦探)将这些信息保存在他们的头脑中,并记录在便条卡,弄皱的纸片,上光的复印书籍条目等上。 历史研究人员开始认识到计算机可能存在足够长的时间,以证明它们不是短暂的现象(对他们来说,短期意味着100年或更短的时间),而数字人文学科作为一个独立的研究领域的出现证明了这一点。这个。

Historical semantic data

历史语义网络的概念示例。 马克西米利安·卡卢斯(Maximilian Kalus)。 CC BY-NC-ND。

Segrada是一款开源软件,可让历史学家(和侦探)追踪其数据。 与Wiki或档案数据库不同,它的重点在于其中的信息和相互关系。 信息片段可能代表人,地方,事物或概念。 这些“节点”可以双向连接以在语义上表示友谊,血缘关系,下落,作者身份等。 因此,术语“语义图数据库”,因为信息可以显示为语义上连接的节点的图。

上图显示了这种历史语义网络的外观。 有几种不同类型的节点代表位置和人员。 节点通过图形连接,可以被人类读者轻松掌握。 这些图是双向的,这意味着它们可以在两个方向上解释。 该图还描绘了日期,其中一些是不完整的(例如,仅年份)。 Segrada支持部分日期和模糊日期,以及标签和地理参考。 该图未显示的是节点和关系的文本描述,或保存信息来源的源引用。 这些功能受数据库支持。 此外,如果需要,可以将文件上载到数据库中并为全文索引。 这样,不仅可以搜索数据库内容,还可以搜索参考文本。

Segrada屏幕截图,右侧为图形视图,左侧为几个数据集。 马克西米利安·卡卢斯(Maximilian Kalus)。 CC BY

Segrada的最初目的是支持历史学家逐步将历史数据拼凑在一起,以最终建立人际网络。 当前数据库的前身是博士学位论文的一部分,该论文涵盖了16世纪葡萄牙与亚洲贸易中的德国和意大利投资者网络。 在研究过程中,通过将近6,800个关系创建并连接了约1,400个节点。

尽管从数据库标准来看,这似乎很小,但它显示了单个历史学家可以在四年内将各种来源繁琐地拼凑而成的内容:记录了1000多人,并且在交换印度辣椒,亚洲香料,蒂罗尔和匈牙利铜,博美犬粮和汇票(主要在里昂)由葡萄牙,德国,意大利和西班牙商人经营。 上面的图片显示了一个典型的屏幕快照,描绘了葡萄牙探险家和总督阿方索·德·阿尔伯克基在研究过程中创建的网络的一部分。

Segrada可供所有人使用,而不仅限于历史学家和侦探。 系谱学家,构造任意信息的知识工作者或试图弄清《权力的游戏》中的关系和位置的人也可能使用它。 该软件基于Web,但可以从桌面运行。 除Java外,对操作系统没有其他要求。 尽管它也可以在一个或多个服务器上运行以授予对单个项目进行协作的一组人员的访问权限,但这使普通用户可以轻松方便地使用该软件。

应该注意的是,Segrada是一个相当新的项目,仍处于测试阶段。 您不必成为侦探即可加入,我们非常欢迎编码,支持,文档,测试和反馈。 该项目的源代码可在GitHub上找到 ,二进制下载可在官方项目网站上找到

翻译自: https://opensource.com/life/15/11/segrada-open-source-semantic-graph-database

菜鸟侦探挑战数据分析pdf

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值