互联网档案馆
1996年5月12日, 布鲁斯特·卡勒 ( Brewster Kahle)像一个仁慈的疯科学家一样,将Internet档案馆变成了现实。 万维网还处于起步阶段,而档案馆则在那里捕捉其成长的烦恼。 受亚历山大图书馆的启发和仿效,互联网档案馆开始了其保存和普及所有知识的使命。
2016年10月27日,互联网档案馆在其美丽的旧金山总部举办了一个派对来庆祝其20岁生日 。 根据《旧金山纪事报》上的一篇文章 ,有600多人聚集在一起表示敬意,并了解档案馆的最新项目和功能。 Internet存档团队并不感到失望,他们展示了他们在过去一年中发布的一些重要且令人印象深刻的进步,包括但不限于:
- 政治电视广告档案库 ,是电视新闻档案 库的副产品,它可以搜索和引用在本次美国大选期间播出的数千个广告,并且是新闻工作者的宝库 。
- 一个Firefox插件 ,提供返回404的网页的Wayback Machine快照。
- 一个项目的公告,该项目已在英语Wikipedia上修复了数百万个失效链接 ,并将其重定向到其Wayback Machine快照。
- GifCities的发布, 这是一个专门的搜索引擎,用于定位GeoCities美好时光中的复古gif动画。
- Wayback Machine的新域摘要功能,提供有关网站的有趣历史信息。
IA服务器由John Blyberg提供; CC BY( 在Flickr上 )
在活动期间宣布的所有项目中,到目前为止,最令人兴奋和印象深刻的一项功能是新发布的功能,它可以搜索Internet存档中所有文本项的全部内容。 现在可以立即搜索到九百万个文本项,涵盖了数百年的人类历史。
开发这种新功能的软件工程师Giovanni Damiola表示:“这真是一种魔术:就像能够以光速阅读一样!每天我都在发现我们甚至不知道自己拥有的内容。” Giovanni来自意大利,于2015年开始在Archive中工作。在过去的四个月中,他一直在实现搜索功能,同时还保持OpenLibrary的平稳运行。
“我们的搜索引擎使用弹性搜索集群。核心由10台服务器组成,每台服务器22个CPU, SSD上的总存储量为70TB。目前索引为4-5TB,其中包含约900万份文档...每天都在增长。”
用户可以通过选择搜索结果页面上搜索栏下方的“搜索书籍全文”选项来访问新功能。 归功于Archive的开放式电子书阅读器 (Internet Archive的Richard Caceres维护的一个项目),搜索结果在搜索结果中得以突出显示。
整个功能仍处于测试阶段,但功能已经非常强大。 很容易看出,即使在此功能的初期,这对于研究人员来说也是一种有价值的工具。 用户可以提供有关Beta的反馈 ,以帮助改进该工具的下一版本。
杰里米·布鲁克斯(Jeremy Brooks)的IA卡车; CC BY-NC( 在Flickr上 )
毫不奇怪,这只是档案馆为改善对文本藏品内容的访问的愿景的第一步。 当被问及未来会怎样时,乔瓦尼提供了一些诱人的暗示。 “这仅仅是个开始。不久,我们可以添加更多功能,例如:实体识别,使我们可以按新的(而不是显而易见的)方式和类别对书籍进行分组。该工具将使在书籍上进行数据分析变得容易语料库。”
全文并不是Internet档案馆上周推出的唯一搜索功能。 它还显示了改进的高级搜索过滤功能,可帮助访问者轻松找到15 PB数据中的需求。 您可以在存档发布的博客文章中了解有关这些过滤选项的更多信息。
翻译自: https://opensource.com/life/16/11/internet-archive-turns-20
互联网档案馆