- 本文出自
ELT.ZIP
团队,ELT<=>Elite(精英),.ZIP为压缩格式,ELT.ZIP即压缩精英。 - 成员:
- 上海工程技术大学大二在校生
- 合肥师范学院大二在校生
- 清华大学大二在校生
- 成都信息工程大学大一在校生
- 黑龙江大学大一在校生
- 华南理工大学大一在校生
- 我们是来自
6个地方
的同学,我们在OpenHarmony成长计划啃论文俱乐部
里,与华为、软通动力、润和软件、拓维信息、深开鸿
等公司一起,学习和研究操作系统技术
…
文章目录
【往期回顾】
① 2月23日 《老子到此一游系列》之 老子为什么是老子 —— ++综述视角解读压缩编码++
② 3月11日 《老子到此一游系列》之 老子带你看懂这些风景 —— ++多维探秘通用无损压缩++
③ 3月25日 《老子到此一游系列》之 老子见证的沧海桑田 —— ++轻翻那些永垂不朽的诗篇++
④ 4月4日 《老子到此一游系列》之 老子游玩了一条河 —— ++细数生活中的压缩点滴++
⑤ 4月18日 ++【ELT.ZIP】OpenHarmony啃论文俱乐部——一文穿透多媒体过往前沿++
⑥ 4月18日 ++【ELT.ZIP】OpenHarmony啃论文俱乐部——这些小风景你不应该错过++
⑦ 4月18日 ++【ELT.ZIP】OpenHarmony啃论文俱乐部——浅析稀疏表示医学图像++
⑧ 4月29日 ++【ELT.ZIP】OpenHarmony啃论文俱乐部——计算机视觉数据压缩应用++
⑨ 4月29日 ++【ELT.ZIP】OpenHarmony啃论文俱乐部——点燃主缓存压缩技术火花++
⑩ 4月29日 ++【ELT.ZIP】OpenHarmony啃论文俱乐部——即刻征服3D网格压缩编码++
⑪ 5月10日 ++【ELT.ZIP】OpenHarmony啃论文俱乐部——云计算数据压缩方案++
⑫ 5月10日 ++【ELT.ZIP】OpenHarmony啃论文俱乐部——大数据框架性能优化系统++
⑬ 5月10日 ++【ELT.ZIP】OpenHarmony啃论文俱乐部——物联网摇摆门趋势算法++
【本期看点】
HCompress在多层存储环境中大放光彩
揭秘消费类电子设备软件更新压缩算法
AIMCS如何压缩短字符串
【技术DNA】
【智慧场景】
********** | ******************** | ******************** | ******************** | ******************** | ******************** | ******************** | ******************** | ******************** | ******************** | ******************** | ******************** | ******************** | ******************** | ******************** |
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
场景 | 自动驾驶 / AR | 语音信号 | 流视频 | GPU 渲染 | 科学、云计算 | 内存缩减 | 科学应用 | 医学图像 | 数据库服务器 | 人工智能图像 | 文本传输 | GAN媒体压缩 | 图像压缩 | 文件同步 |
技术 | 点云压缩 | 稀疏快速傅里叶变换 | 有损视频压缩 | 网格压缩 | 动态选择压缩算法框架 | 无损压缩 | 分层数据压缩 | 医学图像压缩 | 无损通用压缩 | 人工智能图像压缩 | 短字符串压缩 | GAN 压缩的在线多粒度蒸馏 | 图像压缩 | 文件传输压缩 |
开源项目 | Draco / 基于深度学习算法/PCL/OctNet | SFFT | AV1 / H.266编码 / H.266解码/VP9 | MeshOpt / Draco | Ares | LZ4 | HCompress | DICOM | Brotli | RAISR | AIMCS | OMGD | OpenJPEG | rsync |
引言
- “人工智能”大家应该不陌生,这算是近几年的“热词”,而”压缩算法“长期关注我们团队的读者也应该挺熟悉,但是何为“短字符串”呢?非计科专业背景的读者乍一听,可能有点茫然。简而言之,我们聊qq,发微信用的一条条消息笼统的说就是短字符串,从专业角度定义的话,就是平均长度为160个字符的字符串。
- 现在大家对我们今天介绍的主角有了一个基本的认知,那么接下来我们步入正题。
时代背景
- 近年来,在空间通信,⭐卫⭐星⭐回程等领域,短文本在数据通信中的使用急剧增加。为了降低带宽的利用率和成本,必须对短写文本采用新的压缩方法。在本文中我们将介绍一种基于人工智能的无损压缩算法,旨在减少网络上消息传输过程中的数据量。
应用场景
-
空间通信
-
inReach(手持式⭐卫⭐星⭐通信器)
-
⭐卫⭐星⭐回程
-
带宽匮乏的移动网状网络
技术现状
Huffman编码
- 基本思想:基于字符串中字符的重复次数进行编码,出现频率越高编码越短。
- 局限性:
- 所有的数据和统计信息都必须在压缩时可用。不适合那些连续生成数据的应用程序。
- 压缩少量数据时,无法减少数据的大小,甚至随着开销的增大而增大,压缩后数据超过原始数据大小。
基于单词的字符串压缩方法。
- 基本思想:文本根据其大小进行分类。找到在不同大小文本中形成压缩基本单元以提高压缩性能。
- 基本单元分为三组:
word
、vavel
和character
(word是一组字符,而vavel
比character
短,但比character
长)- 文本的大小超过 5 MB ——>
word
- 文字大小为 200 KB - 5 MB——>
vavel
- 文本大小为 100 - 200 KB——>
character
- 文本的大小超过 5 MB ——>
- 测试结果:该方法应用于数据大小为 100KB 的批数据
LZW算法
- 它是一种适合字符串压缩的方法。LZW是1977年提出的LZ算法的改进版本。许多压缩软件如
winzip
,pkzip
,gzip
都是基于LZW的。 - 这种方法根据扫描目标文本动态更新构造字符串索引字典。
- 但是,这种方法不适合压缩小字符串因为和哈夫曼编码一样有时字典和压缩数据的大小会超过原始数据的大小
SMAZ
- 这种方法的目的是通过查找人们发送的消息的模式,找出重复次数最多的单词,然后将这些单词映射到索引中。
- 这种方法
减小了短文本消息的大小
。例如短文本在推特的比例分别为29%和19%。 - SMAZ的缺点识别发送信息的模式并不容易,特别是使用不同方言的人在与不同类型的人交谈时发送的消息。
其他方案
-
一种利用BP网络预测字符重复的方法,使数据量减少了30%。神经网络被用于减小图像的大小。提出了一种新的
实用的、通用的
字符串无损压缩算法——神经马尔可夫预测压缩(NMPC)
。 -
该方法基于
贝叶斯神经网络(BNN)
和隐马尔可夫模型(HMM)
的结合,具有线性处理时间、恒定的内存存储性能和对并行的适应性。然而,这种方法适用于那些大小至少为8 KB的批数据,