溯游从之,宛在水中央。
![img_04c1b9c5d391b741b660271bb84e3813.jpe](https://i-blog.csdnimg.cn/blog_migrate/416c8055f2482dfabcf781a8894fd21e.jpeg)
困境
移动互联网时代,搞社会研究的人总是需要从网络采集各种数据。假设你本周的任务是搜集世界主流媒体对某一主题的报道。你好不容易学习并且掌握了搜索引擎的各种窍门后,辛辛苦苦搞到了相关链接。兴冲冲打开一看……
![img_2aa5438a50b9f1a279bd70e650610ffd.jpe](https://i-blog.csdnimg.cn/blog_migrate/5a5e12d14a1e8aa45ef6434bc74bbf96.jpeg)
你的心情想必不会很好吧?
华盛顿邮报这样的报纸网站还属于比较稳定的。有的网站内容天生就不稳定。
你能不能自己举个例子?
(停下来,给你10秒钟时间思考
……
时间到,我们继续!)
例如这个网站:
![img_8ef2b734e0cd135589fc894af1a91189.png](https://i-blog.csdnimg.cn/blog_migrate/f3ab9155f570a047a202e779b1ff8cd6.png)
维基百科是一款在线的开放百科全书。因为人们都有权利去修改,于是关于某个话题的内容就可能会不断发生变化。有些内容你很感兴趣,一旦不及时存储,几天之后就被可能被某位耿直的仁兄给删掉了。
![img_47e7e584f71c7d34ea9a4589f4da3187.jpe](https://i-blog.csdnimg.cn/blog_migrate/05d96012d2ab95e19737d75cbe2ac73c.jpeg)
更要命的是,有的时候你甚至都还没来得及想明白自己该搜集哪些信息,它就已经被改得面目全非了。
例如2016年11月,这位老兄被选上了美国总统。
![img_b9d8706c76ad365bf86043a4412006a8.jpe](https://yqfile.alicdn.com/img_b9d8706c76ad365bf86043a4412006a8.jpeg)
2016年12月28日,Trump的维基百科的页面是这个样子的。
![img_9a08ec527e3a2f264ba78da551ffccb5.jpe](https://yqfile.alicdn.com/img_9a08ec527e3a2f264ba78da551ffccb5.jpeg)
这个页面显然是近期被编辑过的。因为提到了他当选的事实。
假如你是个研究者,打算分析一下Trump从参加竞选至今的维基百科内容变动情况,可能会对自己之前的懒惰追悔莫及——我要是一直持续检索并且存储了Trump维基页面的文本,该有多好啊!
我积攒了那么多Hillary Clinton的数据干嘛?!
![img_1f59c9c2061fece5e7c55daa995573d4.jpe](https://i-blog.csdnimg.cn/blog_migrate/af08279b339725b9b0a7a6ac68880a82.jpeg)
你不用那么后悔。谁知道Trump会当选呢?连美国主流媒体都几乎没有一个预测准确的。
都说世界上没有后悔药。这个定律在互联网上嘛,可能还有些商量的余地。
这篇文章就给你介绍那么一种后悔药——互联网上的“时间机器”。
快照
这种工具可以帮助你回到之前的某个时点,看当时互联网上某个链接的内容和状态。工具的名称多种多样,但是本质上就是网页内容的快照。这就像是你小时候照了一张照片,今天再拿出来看,身高、体重都发生了变化,可是那张照片并不会变,忠实地记录了你当时的样子。
![img_d5308a10fe41d345d6c1b0c575b140f2.jpe](https://i-blog.csdnimg.cn/blog_migrate/cfa79b500250820b3f2266de92a878e6.jpeg)
每隔一段时间,许多机构都会对互联网上内容进行快照,就是留存一份档案。
对互联网进行快照是个很繁复的工作,而且成本很高,因此你不能指望自己能获得互联网每时每刻的状态存档。两次快照中间的间隔也许是几分钟、几天、几个月或者更久。不过,对于许多应用场景来说,这种快照已经很实用了。
很多互联网用户并不知道这些快照档案的存在,更不知道如何检索和使用它们。如果你恰巧就是其中之一,没关系,往下读。
检索
本文我们采用一款免费在线工具CachedView来举例说明互联网“时间机器”的使用方法。
![img_ca5747bea67e1e8dd6c33c220a36690e.jpe](https://i-blog.csdnimg.cn/blog_migrate/55d7f9a66e79b9f3cc0e57cd7875ae49.jpeg)
首先你得把Trump的这个维基百科页面链接复制下来。
在CachedView里面,输入这条链接。
![img_e72703d711c298edb6e8976d9fa3c00a.jpe](https://i-blog.csdnimg.cn/blog_migrate/672053c0a6fb3d44aa66c4fc4eff7440.jpeg)
下面有4个按钮,分别是Google网页快照、Coral网页快照、Archive.org快照和当前版本。
点击绿色按钮,查看Google快照,结果是这个样子的。
![img_da36f7e4673f5499bff2149c9f5950ac.jpe](https://yqfile.alicdn.com/img_da36f7e4673f5499bff2149c9f5950ac.jpeg)
看着怎么这么眼熟呢?
没错,因为就是你刚才在维基百科上面看到的那篇,一模一样。
为什么?仔细看看左上角显示的快照时间。
![img_142f84700f9ba641081f948942d38c07.jpe](https://i-blog.csdnimg.cn/blog_migrate/0309a91661be6a6474a11b12b25a2ae4.jpeg)
原来如此,快照是检索当天的凌晨拍的。
看来Google的快照对于我们的需求用处不大。我们试试第三个按钮,看Archive.org能否带来一些惊喜。
追溯
事实证明,惊喜确实可以有。
![img_c35b8dc58682dd2f22c1b314e9bf72b6.jpe](https://i-blog.csdnimg.cn/blog_migrate/0fbb74d39aac8f55f5f348fd3a7dcea5.jpeg)
放大一下,图片上方提示了archive.org存储了Donald Trump页面的次数——1767次!
![img_4f38bd94e2c1a3ba13993a3877022968.jpe](https://i-blog.csdnimg.cn/blog_migrate/52cb33e785f27f5a00f428e08c91c50d.jpeg)
自2004年开始,每年维基百科上关于Trump的条目都会做许多次更新。2005年次数比较多,近两年更是创纪录地增长。猜猜为什么?
下面的日历上,用蓝色圆圈的大小来提示修改被存储的次数。
![img_6e9b7a8fdd48be3a7a6bc007659ce84b.jpe](https://i-blog.csdnimg.cn/blog_migrate/59aed596ed9f853d352d0382d67502ca.jpeg)
这是2016年全年的情况。可以看到一些很大的圆圈。代表一天之内,页面就被修改许多回。
![img_e3f5f641bd7075a9a72cf31b829d28a1.jpe](https://i-blog.csdnimg.cn/blog_migrate/a5b785343296a97187283a1dcd4756d3.jpeg)
2016年11月9日这一天,被存储下来的修改一共发生了20次。频繁的修改意味着什么?留作思考题。 :-P
我们打开一篇Trump当选之前的页面来看看。
![img_b4566fe94655096b86eae7ac1565c8a0.jpe](https://yqfile.alicdn.com/img_b4566fe94655096b86eae7ac1565c8a0.jpeg)
这是2016年10月1日的页面。与我们之前看到的维基百科当前页面不同,那时候他还不是president-elect。不过照片与目前是一致的,而且介绍里面他已经被标为了政治家(或者政客?),谁知道politician这个词儿该怎么翻译?
如果你一路追踪回去,就能看见显著的差异。我们翻到了2004年7月的一天。当时Trump的页面落户维基百科时间不久,是这个样子的:
![img_c223af0e3989a099687e15b680169e69.jpe](https://i-blog.csdnimg.cn/blog_migrate/3c96e701b9dc4c10cf04365c788c756f.jpeg)
这页面里面还有维基百科募捐的广告呢。照片不知怎么找不到了。不过看到正文,我们会感觉明显的差异。那时候,他还只是被称为商人。
1700多个快照,慢慢浏览吧。 :-P
讨论
以上就是互联网“时光机器”——快照检索工具——的使用方法。相信你已经学会了,希望对你的学习、工作和科研能有些益处。
多说两句,也是我平时嘱咐自己学生的碎碎念——千万不要在网上发布一些自己10年甚至20年之后回看起来会后悔的东西。因为互联网这玩意儿有记忆!
如果你以为删除键可以帮助你抹掉互联网的记忆,那你错了。
本文读后你的感受是什么?你还知道哪些好工具,可以帮助你检索获得互联网额历史信息?欢迎留言,咱们一起讨论。