文本压缩

以下介绍三种文本压缩类型:
1. 关键字编码
2. 行程长度编码
3. 赫夫曼编码

1. 关键字编码
压缩文本是将一些常用的单词,用某个单字符替代。要解压,就采用逆过程,将单个字符换成完整的单词。

关键字编码的一种扩展是用特殊字符替换文本中的特定模型,被编码的模型通常不是完整的单词,而是单词的一部分,如通用的前缀和后缀:ex, ing, tion。这种方法的一个优点是被编码的模型通常比整个单词出现的频率更高。但缺点是:
首先,用来对关键字编码的字符不能出现在原始文本中。比如,如果原文本中包含"$",而$又是关键替代字符,那么编码就会有歧义。到时就会不知道"$" 表示的是某个单词,还是美元符号。这样便限制了能够编码的单词数和要编码的文本特性。而且,在解码时也会出现同样的问题。
此外,单词的大小写需要用不同的关键字符来代替。因为,计算机是区分大小写的。
第三,不要用一个字符去替换另一个字符,那样就不叫压缩了。只有当单词越长时,替换后的单词压缩率才越高。




2. 行程长度编码
在某些情况下,一个字符可能在一个长序列中反复出现。在英语文本中,这种重复不常见。但在大的数据流(如DNA序列)中,这种情况则经常出现。这种重复的字符可用标志字符替换掉,这种方式就叫“行程长度编码”或称“迭代编码”。如:
原字符:AAAAAAA
编码字符:*A7      // 用 * 作为标志符
  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值