行程编码(run-length encoding)
行程编码应该算是简单的一种压缩技术了。这种的算法非常明了,比如我有一个字符串“AAAABBBBCCCCDDDD”,如果以最简单的ASCII编码形式保存的话,就需要16个字节,那么如果使用了行程编码呢,编码后将会像是这样,“#A4#B4#C4#D4”,就是12个字节,如果重复char越多效果就越明显了。注意这里我们使用的是ASCII编码的演示,所以“#A4”是三个字节,“#A255”同样是三个字节。压缩后的“#A4#B4#C4#D4”是什么意思呢,在这里“#”是一个标记(一般叫做哨兵),表示在这个后边的字符是被编码过的,当然这里选择“#”只是一个演示,具体的你需要更具情况来选择一个,在被编码的文本中很少出现的字符,这样压缩的效果就会更好(原因后面会说)。那么接下去的“A4”就表示“A”这个字符重复四次,以此类推。
这里有一个要注意个问题,万一我选择的哨兵和被压缩的文本中的字符一样了该怎么办呢,因为我们有时很难保证哨兵一定不会和文本中的字符相同。比如哨兵是“#”压缩的文本是“###”,那么输出的结果应该是“##3”,第一个“#”是哨兵,第二个“#”是重复的字符。