互联网档案馆_互联网档案馆年满20岁,向全世界赠送生日礼物

互联网档案馆

1996年5月12日, 布鲁斯特·卡勒Brewster Kahle)像一个仁慈的疯科学家一样,将Internet档案馆变成了现实。 万维网还处于起步阶段,而档案馆则在那里捕捉其成长的烦恼。 受亚历山大图书馆的启发和仿效,互联网档案馆开始了其保存和普及所有知识的使命。

2016年10月27日,互联网档案馆在其美丽的旧金山总部举办了一个派对来庆祝其20岁生日 。 根据《旧金山纪事报》上的一篇文章 ,有600多人聚集在一起表示敬意,并了解档案馆的最新项目和功能。 Internet存档团队并不感到失望,他们展示了他们在过去一年中发布的一些重要且令人印象深刻的进步,包括但不限于:

Internet Archive servers

IA服务器由John Blyberg提供; CC BY( 在Flickr上

在活动期间宣布的所有项目中,到目前为止,最令人兴奋和印象深刻的一项功能是新发布的功能,它可以搜索Internet存档中所有文本项的全部内容。 现在可以立即搜索到九百万个文本项,涵盖了数百年的人类历史。

开发这种新功能的软件工程师Giovanni Damiola表示:“这真是一种魔术:就像能够以光速阅读一样!每天我都在发现我们甚至不知道自己拥有的内容。” Giovanni来自意大利,于2015年开始在Archive中工作。在过去的四个月中,他一直在实现搜索功能,同时还保持OpenLibrary的平稳运行。

“我们的搜索引擎使用弹性搜索集群。核心由10台服务器组成,每台服务器22个CPU, SSD上的总存储量为70TB。目前索引为4-5TB,其中包含约900万份文档...每天都在增长。”

用户可以通过选择搜索结果页面上搜索栏下方的“搜索书籍全文”选项来访问新功能。 归功于Archive的开放式电子书阅读器 (Internet Archive的Richard Caceres维护的一个项目),搜索结果在搜索结果中得以突出显示。

整个功能仍处于测试阶段,但功能已经非常强大。 很容易看出,即使在此功能的初期,这对于研究人员来说也是一种有价值的工具。 用户可以提供有关Beta的反馈 ,以帮助改进该工具的下一版本。

Internet Archive truck

杰里米·布鲁克斯(Jeremy Brooks)的IA卡车; CC BY-NC( 在Flickr上

毫不奇怪,这只是档案馆为改善对文本藏品内容的访问的愿景的第一步。 当被问及未来会怎样时,乔瓦尼提供了一些诱人的暗示。 “这仅仅是个开始。不久,我们可以添加更多功能,例如:实体识别,使我们可以按新的(而不是显而易见的)方式和类别对书籍进行分组。该工具将使在书籍上进行数据分析变得容易语料库。”

全文并不是Internet档案馆上周推出的唯一搜索功能。 它还显示了改进的高级搜索过滤功能,可帮助访问者轻松找到15 PB数据中的需求。 您可以在存档发布的博客文章中了解有关这些过滤选项的更多信息。

翻译自: https://opensource.com/life/16/11/internet-archive-turns-20

互联网档案馆

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值