翻译Managing gigabytes的一些事

      这么经典的一本书,大部分从事搜索引擎行业的人都应该读过,或者至少了解过,我最早看到这本书就被它吸引了,写得非常清楚,思路也很连贯,但遗憾的是水平有限,很多地方还看不懂。

      

      后来我放下了这本书,进入了搜索这个行业,陆续作了一些项目,几乎看完了公司所有的技术文档,并且阅读了很多相关论文,写完了《走进搜索引擎》一书,在写《走进搜索引擎》的时候,阅读了大量论文,还仔细地看了李晓明教授写的《搜索引擎》一书,它们都大量引用了Managing gigabytes一书,特别是压缩和索引的部分,因此,我再一次拿起了Managing gigabytes。这一次,除了图片部分,我几乎通读了一遍。

 

      在写《走进搜索引擎》的时候有很多阻力,并不是什么东西都可以拿出来分享的,就好像魔术师不能把秘密都泄露一样,而Managing gigabytes这本书系统地,清晰地把很多有价值的东西表达了出来,因此我决定翻译此书。

 

      翻译的过程是异常艰难的,很多地方极其难懂,很多时候痛苦的看着进度无法往下,我求助于各种途径,包括阅读本书的推荐论文,和公司的牛人讨论,以及与本书作者Tim教授进行沟通。记得特别是翻译到范式haffman编码长度等地方时,常常是一周时间只能翻译1-2页,但我坚信没有越不过去的坎,在各种帮助下,终于翻译完成了。

 

     由于对于本书的翻译,除了给同学们带来一本经典以外,我还是一种自我学习和修炼的过程,因此我并在乎进度,而是力求能全部看懂,并忠于原著,事实上,本书目前为止大约还有2-3处(除图像部分)我没有完全看懂,大部分我都搞清楚了,很多公式我都进行了校对,数据我也都一一算过,相信读者在看到我写的译序后能有共鸣,其中也发现了作者的一些错误,其中一个还被作者列在了本书的在线勘误中。

      http://www.cs.mu.oz.au/mg/errata.html

当我通过计算,发现了这个错误后,异常高兴,诚惶诚恐地告知了作者,作者把它列在了勘误中,让我无比自豪,通过翻译此书对本书做出了贡献,非常荣幸。

 

     在本书的无数质疑中,有一些是正面的,让我看到了自己的不足,我无论如何不是什么资深人士,也没有这个能力翻译此书,但索引,查询,索引创建等部分我比较熟悉的领域翻译地还是很规矩的,我也比较满意,压缩和图像部分我本不很熟悉,虽然也花了很大精力,但相对会欠缺很多。

 

     通过这本书我本人收获很大,希望读者也能和我一样。

 

     我将我和作者之间的一些通信公开了出来,由于都是技术上的讨论,不涉及隐私。希望大家也不要引用,谢谢。

公开的目的只有两个:第一,作者对本书并不是没有关注,第二,我也绝非沽名钓誉之徒,付出了很多,在追去“真”的过程中,不断努力。

 

   

 

     

    

 

    

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 4
    评论
In this fully updated second edition of the highly acclaimed Managing Gigabytes, authors Witten, Moffat, and Bell continue to provide unparalleled coverage of state-of-the-art techniques for compressing and indexing data. Whatever your field, if you work with large quantities of information, this book is essential reading--an authoritative theoretical resource and a practical guide to meeting the toughest storage and access challenges. It covers the latest developments in compression and indexing and their application on the Web and in digital libraries. It also details dozens of powerful techniques supported by mg, the authors' own system for compressing, storing, and retrieving text, images, and textual images. mg's source code is freely available on the Web. * Up-to-date coverage of new text compression algorithms such as block sorting, approximate arithmetic coding, and fat Huffman coding * New sections on content-based index compression and distributed querying, with 2 new data structures for fast indexing * New coverage of image coding, including descriptions of de facto standards in use on the Web (GIF and PNG), information on CALIC, the new proposed JPEG Lossless standard, and JBIG2 * New information on the Internet and WWW, digital libraries, web search engines, and agent-based retrieval * Accompanied by a public domain system called MG which is a fully worked-out operational example of the advanced techniques developed and explained in the book * New appendix on an existing digital library system that uses the MG software Editorial Reviews Amazon.com Review Of all the tasks programmers are asked to perform, storing, compressing, and retrieving information are some of the most challenging--and critical to many applications. Managing Gigabytes: Compressing and Indexing Documents and Images is a treasure trove of theory, practical illustration, and general discussion in this fascinating technical subject. Ian Witten, Alistair Moffat, and Timothy Bell have
评论 4
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值