【ELT.ZIP】OpenHarmony啃论文俱乐部——人工智能短字符串压缩

本文介绍了针对短字符串压缩的研究,尤其是针对人工智能领域的应用。文章探讨了Huffman编码、基于单词的压缩方法、LZW算法和SMAZ等现有技术,并提出了一种名为AIMCS的新型人工智能无损压缩算法,适用于压缩短文本,特别是在带宽有限的通信场景中。实验结果表明,AIMCS在压缩效率和压缩比上有显著优势,但也有其局限性,如不适合字符数量多、重复字符少的语言文本压缩。
摘要由CSDN通过智能技术生成
  • 本文出自ELT.ZIP团队,ELT<=>Elite(精英),.ZIP为压缩格式,ELT.ZIP即压缩精英。
  • 成员:
    • 上海工程技术大学大二在校生
    • 合肥师范学院大二在校生
    • 清华大学大二在校生
    • 成都信息工程大学大一在校生
    • 黑龙江大学大一在校生
    • 华南理工大学大一在校生
  • 我们是来自6个地方的同学,我们在OpenHarmony成长计划啃论文俱乐部里,与华为、软通动力、润和软件、拓维信息、深开鸿等公司一起,学习和研究操作系统技术

【往期回顾】

 ① 2月23日 《老子到此一游系列》之 老子为什么是老子 —— ++综述视角解读压缩编码++
 ② 3月11日 《老子到此一游系列》之 老子带你看懂这些风景 —— ++多维探秘通用无损压缩++
 ③ 3月25日 《老子到此一游系列》之 老子见证的沧海桑田 —— ++轻翻那些永垂不朽的诗篇++
 ④ 4月4日   《老子到此一游系列》之 老子游玩了一条河 —— ++细数生活中的压缩点滴++
 ⑤ 4月18日 ++【ELT.ZIP】OpenHarmony啃论文俱乐部——一文穿透多媒体过往前沿++
 ⑥ 4月18日 ++【ELT.ZIP】OpenHarmony啃论文俱乐部——这些小风景你不应该错过++
 ⑦ 4月18日 ++【ELT.ZIP】OpenHarmony啃论文俱乐部——浅析稀疏表示医学图像++
 ⑧ 4月29日 ++【ELT.ZIP】OpenHarmony啃论文俱乐部——计算机视觉数据压缩应用++
 ⑨ 4月29日 ++【ELT.ZIP】OpenHarmony啃论文俱乐部——点燃主缓存压缩技术火花++
 ⑩ 4月29日 ++【ELT.ZIP】OpenHarmony啃论文俱乐部——即刻征服3D网格压缩编码++
 ⑪ 5月10日 ++【ELT.ZIP】OpenHarmony啃论文俱乐部——云计算数据压缩方案++
 ⑫ 5月10日 ++【ELT.ZIP】OpenHarmony啃论文俱乐部——大数据框架性能优化系统++
 ⑬ 5月10日 ++【ELT.ZIP】OpenHarmony啃论文俱乐部——物联网摇摆门趋势算法++

【本期看点】

  • HCompress在多层存储环境中大放光彩
  • 揭秘消费类电子设备软件更新压缩算法
  • AIMCS如何压缩短字符串

【技术DNA】

middle_img_v2_0398a8a42df94e04aab0aa585a1527dg.png

【智慧场景】

********** ******************** ******************** ******************** ******************** ******************** ******************** ******************** ******************** ******************** ******************** ******************** ******************** ******************** ********************
场景 自动驾驶 / AR 语音信号 流视频 GPU 渲染 科学、云计算 内存缩减 科学应用 医学图像 数据库服务器 人工智能图像 文本传输 GAN媒体压缩 图像压缩 文件同步
技术 点云压缩 ‎稀疏快速傅里叶变换‎ 有损视频压缩 网格压缩 动态选择压缩算法框架 无损压缩 分层数据压缩 医学图像压缩 无损通用压缩 人工智能图像压缩 短字符串压缩 GAN 压缩的在线多粒度蒸馏 图像压缩 文件传输压缩
开源项目 Draco / 基于深度学习算法/PCL/OctNet SFFT AV1 / H.266编码 / H.266解码/VP9 MeshOpt / Draco Ares LZ4 HCompress DICOM Brotli RAISR AIMCS OMGD OpenJPEG rsync

引言

  • “人工智能”大家应该不陌生,这算是近几年的“热词”,而”压缩算法“长期关注我们团队的读者也应该挺熟悉,但是何为“短字符串”呢?非计科专业背景的读者乍一听,可能有点茫然。简而言之,我们聊qq,发微信用的一条条消息笼统的说就是短字符串,从专业角度定义的话,就是平均长度为160个字符的字符串。
  • 现在大家对我们今天介绍的主角有了一个基本的认知,那么接下来我们步入正题。

时代背景

  • 近年来,在空间通信,⭐卫⭐星⭐回程等领域,短文本在数据通信中的使用急剧增加。为了降低带宽的利用率和成本,必须对短写文本采用新的压缩方法。在本文中我们将介绍一种基于人工智能的无损压缩算法,旨在减少网络上消息传输过程中的数据量。

应用场景

  • 空间通信
    image.png

  • inReach(手持式⭐卫⭐星⭐通信器)
    image.png

  • ⭐卫⭐星⭐回程
    image.png

  • 带宽匮乏的移动网状网络
    image.png

技术现状

Huffman编码

  • 基本思想:基于字符串中字符的重复次数进行编码,出现频率越高编码越短。
  • 局限性
    1. 所有的数据和统计信息都必须在压缩时可用。不适合那些连续生成数据的应用程序。
    2. 压缩少量数据时,无法减少数据的大小,甚至随着开销的增大而增大,压缩后数据超过原始数据大小。

基于单词的字符串压缩方法。

  • 基本思想:文本根据其大小进行分类。找到在不同大小文本中形成压缩基本单元以提高压缩性能。
  • 基本单元分为三组:wordvavelcharacter(word是一组字符,而vavelcharacter短,但比character长)
    • 文本的大小超过 5 MB ——> word
    • 文字大小为 200 KB - 5 MB——> vavel
    • 文本大小为 100 - 200 KB——> character
  • 测试结果:该方法应用于数据大小为 100KB 的批数据

LZW算法

  • 它是一种适合字符串压缩的方法。LZW是1977年提出的LZ算法的改进版本。许多压缩软件如winzip, pkzip, gzip都是基于LZW的。
  • 这种方法根据扫描目标文本动态更新构造字符串索引字典
  • 但是,这种方法不适合压缩小字符串因为和哈夫曼编码一样有时字典和压缩数据的大小会超过原始数据的大小

SMAZ

  • 这种方法的目的是通过查找人们发送的消息的模式,找出重复次数最多的单词,然后将这些单词映射到索引中。
  • 这种方法减小了短文本消息的大小。例如短文本在推特的比例分别为29%和19%。
  • SMAZ的缺点识别发送信息的模式并不容易,特别是使用不同方言的人在与不同类型的人交谈时发送的消息。

其他方案

  • 一种利用BP网络预测字符重复的方法,使数据量减少了30%。神经网络被用于减小图像的大小。提出了一种新的实用的、通用的字符串无损压缩算法——神经马尔可夫预测压缩(NMPC)

  • 该方法基于贝叶斯神经网络(BNN)隐马尔可夫模型(HMM)的结合,具有线性处理时间、恒定的内存存储性能和对并行的适应性。然而,这种方法适用于那些大小至少为8 KB的批数据,

结论

    • 0
      点赞
    • 0
      收藏
      觉得还不错? 一键收藏
    • 0
      评论
    评论
    添加红包

    请填写红包祝福语或标题

    红包个数最小为10个

    红包金额最低5元

    当前余额3.43前往充值 >
    需支付:10.00
    成就一亿技术人!
    领取后你会自动成为博主和红包主的粉丝 规则
    hope_wisdom
    发出的红包
    实付
    使用余额支付
    点击重新获取
    扫码支付
    钱包余额 0

    抵扣说明:

    1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
    2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

    余额充值