《深入搜索引擎--海量信息的压缩、索引和查询》读后感之---压缩编（一）

最新推荐文章于 2024-08-07 22:42:03 发布

iteye_8776

最新推荐文章于 2024-08-07 22:42:03 发布

阅读量112

点赞数

文章标签：搜索引擎算法

该书是斯担福信息检索课程首选教材之一。当当网入口[url]http://product.dangdang.com/product.aspx?product_id=20617442&ref=search-1-pub[/url]，网上可以下载到该书的PDF文档， :oops: 鉴于版权问题，，我就不贴出来了，所以大家自己找吧！ :oops:
我这里只是写我读该书的一些见解。因为是个本科生，虽然对搜索引擎研发也有些研究，但是还是菜鸟一个，所以希望各位大神们指点指点。在此先谢谢各位朋友了哦！下面进入正题。
当今，虽然咱们的硬盘越来越大，但其速度还远远跟不上全球信息的爆炸性增长.全球每天都会产生数以亿计的网页和信息。所以，这就需要我们对信息进行压缩。
压缩技术，即对数据进行特定的转换后存储在磁盘或者服务器上的一种算法，包括编码和解码，如下图所示、
[img]http://dl.iteye.com/upload/attachment/376870/ab2972b5-75cb-3b9f-b792-65554e4e54c2.bmp[/img]
在此，引入一个名词--模型。模型为编码器提供一个概率分布函数，编码器使用模型来编码数据中出现的符号，解码器通过同一模型来对数据进行解码。模型分为符号模型、字典模型。其中常用的编码是哈夫曼编码和算术编码。下面就是我对该书第二章（压缩）的理解。
符号模型—根据上下文字符匹配技术，对输入的符号产生一个‘预测’，然后预测以概率分布形式提供编码器，编码器使用某些编码（比如范式哈夫曼编码）对符号操作。
字典模型—根据‘字典’或者‘词典’中用来识别某个子串的码字来替换数据中的这个子串。字典包含一个子串列表，并且每个子串都有一个码字与之对应。
符号模型需要对输入的数据进行概率统计，而字典模型不需要，但字典模型需要有一个‘字典’。
下面简单说明一下哈夫曼编码和算术编码的实现：
对于文本数据来说，如果每个字符都按照8字节存储的话，就达不到压缩数据的效果，所以，就引入了‘前缀编码’这一概念。数据的存储都是以二进制存储的，简单的说就是一般表示为0000或者1111。假设一串字符为efabe，再给出abcef的二进制编码如下图（随便给出来的）
[img]http://dl.iteye.com/upload/attachment/376868/d269d0eb-7376-3537-b4dc-ea6098ac0661.bmp[/img]
由此我们得出efabe编码为101100000110，我们将该编码用一棵树表示，如下图：

[img]http://dl.iteye.com/upload/attachment/376872/caa0ceba-6bcf-3ce5-89a1-8cc27a6f9709.bmp[/img]

其实，这棵树就是通过哈夫曼编码技术得到的。哈夫曼算法通过自底向顶构造解码数来解码。

iteye_8776

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
《深入搜索引擎--海量信息的压缩、索引和查询》读后感之---压缩编（一）

该书是斯担福信息检索课程首选教材之一。当当网入口[url]http://product.dangdang.com/product.aspx?product_id=20617442&ref=search-1-pub[/url]，网上可以下载到该书的PDF文档， :oops: 鉴于版权问题，，我就不贴出来了，所以大家自己找吧！ :oops: 我这里只是写我读该书的一些见解。因为是个...
复制链接

扫一扫