神经网络不仅可以分析、识别特征,提出预测,还可以压缩文件。斯坦福大学的研究者们最近提交的论文中,循环神经网络捕捉长期依赖关系的优势被用于无损压缩任务中,这种被称为DeepZip的技术已在文本和基因组数据文件中得到了实验。研究人员称,其结果颇具潜力。
正在进行的大数据变革让我们收集了大量不同类型的数据,如图像、文本和音频等;新类型的数据如3D VR数据、用于自动驾驶的点云数据、不同类型的基因组数据等,占据着巨量的存储空间。因此,人们对于统计模型和适用于各种数据格式的高效压缩方法有着很大的需求。
近50年来,无损压缩技术已经历了很多重要的发展。在克劳德·香农的一个经典研究中,这位先驱者指出,熵率是给定数据源可能达到的最佳压缩比,同时也给出了一种实现方法(尽管不甚实际)。J. Rissanen提出了算术编码,这是一个实现已知分布熵边界的有效方法。对于未知分布的数据源(如文本和DNA),他还设计了算术编码的自适应变体,它可以通过尝试学习条件k-gram模型的分布来进行压缩。尽管这种过程的复杂度会随k的变化而呈指数级增长,通常上下文会被限制在k=20符号。这会导致压缩比例的显著损失,因为模型无法捕捉长期依赖关系。我们都知道基于循环神经网络(LSTM/GRU)的模型善于捕捉长期依赖关系,同时可以较准确地预测下一个字母/单词。如此一来,能否使用基于RNN的框架来用于压缩任务?在斯坦福大学的一份研究中,研究人员探索了使用基于RNN的语言模型及算术编码来提升无损压缩的性能。