这么经典的一本书,大部分从事搜索引擎行业的人都应该读过,或者至少了解过,我最早看到这本书就被它吸引了,写得非常清楚,思路也很连贯,但遗憾的是水平有限,很多地方还看不懂。
后来我放下了这本书,进入了搜索这个行业,陆续作了一些项目,几乎看完了公司所有的技术文档,并且阅读了很多相关论文,写完了《走进搜索引擎》一书,在写《走进搜索引擎》的时候,阅读了大量论文,还仔细地看了李晓明教授写的《搜索引擎》一书,它们都大量引用了Managing gigabytes一书,特别是压缩和索引的部分,因此,我再一次拿起了Managing gigabytes。这一次,除了图片部分,我几乎通读了一遍。
在写《走进搜索引擎》的时候有很多阻力,并不是什么东西都可以拿出来分享的,就好像魔术师不能把秘密都泄露一样,而Managing gigabytes这本书系统地,清晰地把很多有价值的东西表达了出来,因此我决定翻译此书。
翻译的过程是异常艰难的,很多地方极其难懂,很多时候痛苦的看着进度无法往下,我求助于各种途径,包括阅读本书的推荐论文,和公司的牛人讨论,以及与本书作者Tim教授进行沟通。记得特别是翻译到范式haffman编码长度等地方时,常常是一周时间只能翻译1-2页,但我坚信没有越不过去的坎,在各种帮助下,终于翻译完成了。
由于对于本书的翻译,除了给同学们带来一本经典以外,我还是一种自我学习和修炼的过程,因此我并在乎进度,而是力求能全部看懂,并忠于原著,事实上,本书目前为止大约还有2-3处(除图像部分)我没有完全看懂,大部分我都搞清楚了,很多公式我都进行了校对,数据我也都一一算过,相信读者在看到我写的译序后能有共鸣,其中也发现了作者的一些错误,其中一个还被作者列在了本书的在线勘误中。
http://www.cs.mu.oz.au/mg/errata.html
当我通过计算,发现了这个错误后,异常高兴,诚惶诚恐地告知了作者,作者把它列在了勘误中,让我无比自豪,通过翻译此书对本书做出了贡献,非常荣幸。
在本书的无数质疑中,有一些是正面的,让我看到了自己的不足,我无论如何不是什么资深人士,也没有这个能力翻译此书,但索引,查询,索引创建等部分我比较熟悉的领域翻译地还是很规矩的,我也比较满意,压缩和图像部分我本不很熟悉,虽然也花了很大精力,但相对会欠缺很多。
通过这本书我本人收获很大,希望读者也能和我一样。
我将我和作者之间的一些通信公开了出来,由于都是技术上的讨论,不涉及隐私。希望大家也不要引用,谢谢。
公开的目的只有两个:第一,作者对本书并不是没有关注,第二,我也绝非沽名钓誉之徒,付出了很多,在追去“真”的过程中,不断努力。