【ELT.ZIP】OpenHarmony啃论文俱乐部——人工智能短字符串压缩

最新推荐文章于 2023-06-11 19:41:05 发布

ELT.ZIP

最新推荐文章于 2023-06-11 19:41:05 发布

阅读量507

点赞数

分类专栏：压缩算法文章标签：人工智能算法鸿蒙 harmonyos

本文链接：https://blog.csdn.net/qq_30407339/article/details/124916569

版权

本文介绍了针对短字符串压缩的研究，尤其是针对人工智能领域的应用。文章探讨了Huffman编码、基于单词的压缩方法、LZW算法和SMAZ等现有技术，并提出了一种名为AIMCS的新型人工智能无损压缩算法，适用于压缩短文本，特别是在带宽有限的通信场景中。实验结果表明，AIMCS在压缩效率和压缩比上有显著优势，但也有其局限性，如不适合字符数量多、重复字符少的语言文本压缩。

摘要由CSDN通过智能技术生成

本文出自ELT.ZIP团队，ELT<=>Elite(精英)，.ZIP为压缩格式，ELT.ZIP即压缩精英。
成员：
- 上海工程技术大学大二在校生
- 合肥师范学院大二在校生
- 清华大学大二在校生
- 成都信息工程大学大一在校生
- 黑龙江大学大一在校生
- 华南理工大学大一在校生
我们是来自6个地方的同学，我们在OpenHarmony成长计划啃论文俱乐部里，与华为、软通动力、润和软件、拓维信息、深开鸿等公司一起，学习和研究操作系统技术…

文章目录

【往期回顾】

【本期看点】

HCompress在多层存储环境中大放光彩
揭秘消费类电子设备软件更新压缩算法
AIMCS如何压缩短字符串

【技术DNA】

【智慧场景】

**********	********************	********************	********************	********************	********************	********************	********************	********************	********************	********************	********************	********************	********************	********************
场景	自动驾驶 / AR	语音信号	流视频	GPU 渲染	科学、云计算	内存缩减	科学应用	医学图像	数据库服务器	人工智能图像	文本传输	GAN媒体压缩	图像压缩	文件同步
技术	点云压缩	‎稀疏快速傅里叶变换‎	有损视频压缩	网格压缩	动态选择压缩算法框架	无损压缩	分层数据压缩	医学图像压缩	无损通用压缩	人工智能图像压缩	短字符串压缩	GAN 压缩的在线多粒度蒸馏	图像压缩	文件传输压缩
开源项目	Draco / 基于深度学习算法/PCL/OctNet	SFFT	AV1 / H.266编码 / H.266解码/VP9	MeshOpt / Draco	Ares	LZ4	HCompress	DICOM	Brotli	RAISR	AIMCS	OMGD	OpenJPEG	rsync

引言

“人工智能”大家应该不陌生，这算是近几年的“热词”，而”压缩算法“长期关注我们团队的读者也应该挺熟悉，但是何为“短字符串”呢？非计科专业背景的读者乍一听，可能有点茫然。简而言之，我们聊qq，发微信用的一条条消息笼统的说就是短字符串，从专业角度定义的话，就是平均长度为160个字符的字符串。
现在大家对我们今天介绍的主角有了一个基本的认知，那么接下来我们步入正题。

时代背景

近年来，在空间通信，⭐卫⭐星⭐回程等领域，短文本在数据通信中的使用急剧增加。为了降低带宽的利用率和成本，必须对短写文本采用新的压缩方法。在本文中我们将介绍一种基于人工智能的无损压缩算法，旨在减少网络上消息传输过程中的数据量。

应用场景

空间通信
inReach（手持式⭐卫⭐星⭐通信器）
⭐卫⭐星⭐回程
带宽匮乏的移动网状网络

技术现状

Huffman编码

基本思想：基于字符串中字符的重复次数进行编码，出现频率越高编码越短。
局限性：
1. 所有的数据和统计信息都必须在压缩时可用。不适合那些连续生成数据的应用程序。
2. 压缩少量数据时，无法减少数据的大小，甚至随着开销的增大而增大，压缩后数据超过原始数据大小。

基于单词的字符串压缩方法。

基本思想：文本根据其大小进行分类。找到在不同大小文本中形成压缩基本单元以提高压缩性能。
基本单元分为三组:word、vavel和character（word是一组字符，而vavel比character短，但比character长）
- 文本的大小超过 5 MB ——> word
- 文字大小为 200 KB - 5 MB——> vavel
- 文本大小为 100 - 200 KB——> character
测试结果：该方法应用于数据大小为 100KB 的批数据

LZW算法

它是一种适合字符串压缩的方法。LZW是1977年提出的LZ算法的改进版本。许多压缩软件如winzip, pkzip, gzip都是基于LZW的。
这种方法根据扫描目标文本动态更新构造字符串索引字典。
但是，这种方法不适合压缩小字符串因为和哈夫曼编码一样有时字典和压缩数据的大小会超过原始数据的大小

SMAZ

这种方法的目的是通过查找人们发送的消息的模式，找出重复次数最多的单词，然后将这些单词映射到索引中。
这种方法减小了短文本消息的大小。例如短文本在推特的比例分别为29%和19%。
SMAZ的缺点识别发送信息的模式并不容易，特别是使用不同方言的人在与不同类型的人交谈时发送的消息。

其他方案

一种利用BP网络预测字符重复的方法，使数据量减少了30%。神经网络被用于减小图像的大小。提出了一种新的实用的、通用的字符串无损压缩算法——神经马尔可夫预测压缩(NMPC)。
该方法基于贝叶斯神经网络(BNN)和隐马尔可夫模型(HMM)的结合，具有线性处理时间、恒定的内存存储性能和对并行的适应性。然而，这种方法适用于那些大小至少为8 KB的批数据，

结论

最低0.47元/天解锁文章

ELT.ZIP

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
【ELT.ZIP】OpenHarmony啃论文俱乐部——人工智能短字符串压缩

本文出自ELT.ZIP团队，ELT<=>Elite(精英)，.ZIP为压缩格式，ELT.ZIP即压缩精英。成员：上海工程技术大学大二在校生合肥师范学院大二在校生清华大学大二在校生成都信息工程大学大一在校生黑龙江大学大一在校生华南理工大学大一在校生我们是来自6个地方的同学，我们在OpenHarmony成长计划啃论文俱乐部里，与华为、软通动力、润和软件、拓维信息、深开鸿等公司一起，学习和研究操作系统技术…文章目录【往期回顾】【本期看点】【技术DNA】【智慧场景】引言时代背.
复制链接

扫一扫