世界上最大的盗版网站,遇到麻烦了!

在刘慈欣的《三体》中,太阳系将要被二维化时,程心乘坐飞船来到了太阳系边沿的冥王星,在这里她遇到了曾经的执剑人罗辑。

0fd8a66ecc491f985613fd5ed7b00d38.png

罗辑向她介绍了人类的墓碑:地球文明博物馆。

在这里,人类希望把自己的文明信息保留十亿年!

但是当时的量子存储器,只能保存两千年。

U盘和硬盘,能保存五千年。

特殊金属制成的光盘, 10万年。

特殊的纸张和油墨制成的印刷品,20万年。

后来科学家们发现,唯一可行的办法是:把字刻在石头上!这样也许能保存1亿年。

最后,人类文明就变成了冥王星“石头”上的字迹。

每次看到这里我都挺震撼的,信息的长时间保存真难啊!

科幻总是能让人产生联想, 虽然不需要保存地球文明,但是想想我们的互联网,有多少数据早已经销声匿迹了?

有个统计说网页的平均寿命低得吓人:只有区区75天!

很多网页即使能被搜索引擎找到,打开时也经常会遇到404 not found。

9d7adad38b66941a329604ba648eb76a.png

能不能把全球互联网网页都找个地方保存起来呢?永不丢失呢?

01

把互联网“存”起来

这是个疯狂的想法,不过,还真有人这么干了!

照片中这位老帅哥叫做Brewster Kahle, 他的梦想就是做这件事情:把整个互联网都存起来!

c9954d15eddeeff225f92da379aba7b8.png

像曾经的被战火摧毁的亚历山大图书馆那样,保存人类文明的知识。

c4e1cf03f47d4b09aa1854ebaddc9afb.png

很明显,这需要钱,很多钱。

幸运的是,Kahle是一位成功的连续创业者,是一位亿万富翁。

Kahle毕业于麻省理工,1992年创立了一家叫做WAIS的电子出版公司,可以让华尔街日报,纽约时报和大英百科全书之类的出版物在互联网上发布。

1995年,Kahle把这套系统卖给了美国在线,赚了1500万美元。

随后他又创立了Alexa Internet ,这个网站估计很多人听说过吧。

Alexa 以提供互联网流量数据,网站全球排名等信息闻名,1999年又以2.5亿美元被亚马逊收购。

3a81825a137965b79672338bab410049.png

在创立Alexa的时候,他很“狡猾”地在其中加入了一份合同,要求Alexa收集的所有内容副本都提供给他创立的另外一家非盈利机构: Internet Archive (互联网档案馆)。

这才是Kahle毕生追求的梦想。

013b5e11a203f60b1b9f254fb8445b2c.png

(Internet Archive 总部)

02

海量数据

到目前为止,互联网档案馆已经保存了:

8350 亿个网页

4400 万本书籍和文本

100 万个软件程序

1500万 录音(包括25.5万个音乐会)

1060万个视频 (包括260个电视节目)

480万张图片

bf4d39a3452d7ff1defbd6ebbed20597.png

(互联网档案馆的服务器)

仅仅是单个副本就占用了145PB的空间(所有的内容至少存储两个副本)。

冷冰冰的数字可能大家可能没有感觉, 我分享一个我自己的故事。

20年前,我使用郑州商都信息港的免费空间,建立了一个个人主页, liuxin.shangdu.net。

这么多年过去了, 商都信息港早就没有了,这个网站也早就不能访问了。

但是,我却能在Kahle的互联网档案馆找到它的备份!

给大家瞅瞅,说实话,看到20年前的东西心情非常激动。

25408b149e3eff8b7501e786d4bc814a.png

20年前的东西还能给你扒拉出来,你说牛不牛?

如果你也想找古老的资料,也可以去试一试:https://web.archive.org/

互联网档案馆不仅仅保存网页,还保存书籍。

为了把书籍数字化,他还制造了一个叫做Scribe的特殊扫描仪。

dcb87e5117ee79a2df5eb518c4dbf48e.png

扫描仪分辨率超高,当然价格不菲, 扫描一页的成本是10美分,平均每本书300页,也就是一本书30美元,美国国会图书馆,有2600万本书,如果都扫描的话,需要花费在7.5亿美元。

有很多志愿者帮助扫描,如果你为它服务了三年,互联网档案馆会为你建立一座自己的雕像,以示感谢。

4ba5feb772e62726b7cbffe9fe776616.png

(据说仿秦始皇兵马俑,看起来有点吓人的不是?)

3

版权争议

保存人类互联网的数据,这本来是一个功德无量的事情。

但是,大家肯定会想到一个问题,它收录了这么多的资料,获取授权了吗?

互联网档案馆说任何人都可以将数字媒体上传,肯定有很多软件,书籍是没有授权的。

虽然网站收录的许多软件都是旧的、已经不再销售或支持的版本,并且努力只收录合法可分享的软件,但有时可能会无意中收录到一些版权受限的软件。

所以有人戏称:这是世界上最大的盗版网站!

更要命的是,互联网档案馆在运行一个“受控数字借阅”的项目,这个项目可以将实体书转成数字副本,然后受控借阅。

例如《三体》,你在上面找到了一套数字书,借了出来,然后别人就不能借阅这个数字书了,直到几周后把你把它还回来以后,别人才能再次借阅,就像实体书一样。

也就是说,互联网档案馆把数字书也当成实体书,以借阅实体书的方式来对外提供服务。

但是,可以受控借阅的360万本书中有很多还是正在印刷和销售的,作者和出版商仍然保留这些书的版权,这就捅了马蜂窝。

4

不可避免的诉讼

2020年,4家出版社(Hachette, Wiley, Penguin Random House, & HarperCollins)联合起诉互联网档案馆,指控他未经许可分发了30多万本书,索赔数亿美元。

2023年3月,曼哈顿地方法官John G. Koeltl做出了判决,认为互联网档案馆的“受控数字借阅”计划不是合理使用。

2023年12月,互联网档案馆提起上诉,认为自己是一家非盈利的图书馆,通过“受控数字借阅”计划借出的每本书都已经购买、付款,数字借阅与传统的图书馆借阅基本相同,不会对作者或出版业造成新的危害。

这个官司可能还有持续很久,结果如何,让我们拭目以待吧!

全文完,觉得不错的话点个赞或者在看吧!

近期热门:

美国的顶尖程序员,深夜都在狂玩儿这个游戏!

这个女生写的软件,解决了无数程序员最头疼的问题!

你们程序员为什么不靠自己的项目谋生?而必须为其他人打工?

  • 18
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值