互联网上的时光机器

溯游从之,宛在水中央。

img_04c1b9c5d391b741b660271bb84e3813.jpe

困境

移动互联网时代,搞社会研究的人总是需要从网络采集各种数据。假设你本周的任务是搜集世界主流媒体对某一主题的报道。你好不容易学习并且掌握了搜索引擎的各种窍门后,辛辛苦苦搞到了相关链接。兴冲冲打开一看……

img_2aa5438a50b9f1a279bd70e650610ffd.jpe

你的心情想必不会很好吧?

华盛顿邮报这样的报纸网站还属于比较稳定的。有的网站内容天生就不稳定

你能不能自己举个例子?

(停下来,给你10秒钟时间思考

……

时间到,我们继续!)

例如这个网站:

img_8ef2b734e0cd135589fc894af1a91189.png

维基百科是一款在线的开放百科全书。因为人们都有权利去修改,于是关于某个话题的内容就可能会不断发生变化。有些内容你很感兴趣,一旦不及时存储,几天之后就被可能被某位耿直的仁兄给删掉了。

img_47e7e584f71c7d34ea9a4589f4da3187.jpe

更要命的是,有的时候你甚至都还没来得及想明白自己该搜集哪些信息,它就已经被改得面目全非了。

例如2016年11月,这位老兄被选上了美国总统。

img_b9d8706c76ad365bf86043a4412006a8.jpe

2016年12月28日,Trump的维基百科的页面是这个样子的。

img_9a08ec527e3a2f264ba78da551ffccb5.jpe

这个页面显然是近期被编辑过的。因为提到了他当选的事实。

假如你是个研究者,打算分析一下Trump从参加竞选至今的维基百科内容变动情况,可能会对自己之前的懒惰追悔莫及——我要是一直持续检索并且存储了Trump维基页面的文本,该有多好啊!

我积攒了那么多Hillary Clinton的数据干嘛?!

img_1f59c9c2061fece5e7c55daa995573d4.jpe

你不用那么后悔。谁知道Trump会当选呢?连美国主流媒体都几乎没有一个预测准确的。

都说世界上没有后悔药。这个定律在互联网上嘛,可能还有些商量的余地。

这篇文章就给你介绍那么一种后悔药——互联网上的“时间机器”。

快照

这种工具可以帮助你回到之前的某个时点,看当时互联网上某个链接的内容和状态。工具的名称多种多样,但是本质上就是网页内容的快照。这就像是你小时候照了一张照片,今天再拿出来看,身高、体重都发生了变化,可是那张照片并不会变,忠实地记录了你当时的样子。

img_d5308a10fe41d345d6c1b0c575b140f2.jpe

每隔一段时间,许多机构都会对互联网上内容进行快照,就是留存一份档案

对互联网进行快照是个很繁复的工作,而且成本很高,因此你不能指望自己能获得互联网每时每刻的状态存档。两次快照中间的间隔也许是几分钟、几天、几个月或者更久。不过,对于许多应用场景来说,这种快照已经很实用了。

很多互联网用户并不知道这些快照档案的存在,更不知道如何检索和使用它们。如果你恰巧就是其中之一,没关系,往下读。

检索

本文我们采用一款免费在线工具CachedView来举例说明互联网“时间机器”的使用方法。

img_ca5747bea67e1e8dd6c33c220a36690e.jpe

首先你得把Trump的这个维基百科页面链接复制下来。

在CachedView里面,输入这条链接。

img_e72703d711c298edb6e8976d9fa3c00a.jpe

下面有4个按钮,分别是Google网页快照、Coral网页快照、Archive.org快照和当前版本。

点击绿色按钮,查看Google快照,结果是这个样子的。

img_da36f7e4673f5499bff2149c9f5950ac.jpe

看着怎么这么眼熟呢?

没错,因为就是你刚才在维基百科上面看到的那篇,一模一样。

为什么?仔细看看左上角显示的快照时间。

img_142f84700f9ba641081f948942d38c07.jpe

原来如此,快照是检索当天的凌晨拍的。

看来Google的快照对于我们的需求用处不大。我们试试第三个按钮,看Archive.org能否带来一些惊喜。

追溯

事实证明,惊喜确实可以有。

img_c35b8dc58682dd2f22c1b314e9bf72b6.jpe

放大一下,图片上方提示了archive.org存储了Donald Trump页面的次数——1767次!

img_4f38bd94e2c1a3ba13993a3877022968.jpe

自2004年开始,每年维基百科上关于Trump的条目都会做许多次更新。2005年次数比较多,近两年更是创纪录地增长。猜猜为什么?

下面的日历上,用蓝色圆圈的大小来提示修改被存储的次数。

img_6e9b7a8fdd48be3a7a6bc007659ce84b.jpe

这是2016年全年的情况。可以看到一些很大的圆圈。代表一天之内,页面就被修改许多回。

img_e3f5f641bd7075a9a72cf31b829d28a1.jpe

2016年11月9日这一天,被存储下来的修改一共发生了20次。频繁的修改意味着什么?留作思考题。 :-P

我们打开一篇Trump当选之前的页面来看看。

img_b4566fe94655096b86eae7ac1565c8a0.jpe

这是2016年10月1日的页面。与我们之前看到的维基百科当前页面不同,那时候他还不是president-elect。不过照片与目前是一致的,而且介绍里面他已经被标为了政治家(或者政客?),谁知道politician这个词儿该怎么翻译?

如果你一路追踪回去,就能看见显著的差异。我们翻到了2004年7月的一天。当时Trump的页面落户维基百科时间不久,是这个样子的:

img_c223af0e3989a099687e15b680169e69.jpe

这页面里面还有维基百科募捐的广告呢。照片不知怎么找不到了。不过看到正文,我们会感觉明显的差异。那时候,他还只是被称为商人。

1700多个快照,慢慢浏览吧。 :-P

讨论

以上就是互联网“时光机器”——快照检索工具——的使用方法。相信你已经学会了,希望对你的学习、工作和科研能有些益处。

多说两句,也是我平时嘱咐自己学生的碎碎念——千万不要在网上发布一些自己10年甚至20年之后回看起来会后悔的东西。因为互联网这玩意儿有记忆

如果你以为删除键可以帮助你抹掉互联网的记忆,那你错了

本文读后你的感受是什么?你还知道哪些好工具,可以帮助你检索获得互联网额历史信息?欢迎留言,咱们一起讨论。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值