lz初探

最新推荐文章于 2023-11-19 18:00:00 发布

pl___

最新推荐文章于 2023-11-19 18:00:00 发布

阅读量1k

点赞数

本文链接：https://blog.csdn.net/pl___/article/details/8661588

版权

因为没有后续做huffman.

所以enwik8 用了7s压到49%

lz的原理很简单就是当当前位置的字符串于历史中的某个字符串相同的时候, 引用(ref)历史的字符串(也就是记录偏移和长度),如果没有就直接保存byte.

我用的搜索方法是前3个byte做hash(准确的说是17bit), 然后用一张jmptable,把他们链接起来.

jmptable是一个[4096*16]的数组 4096是12bit, 16是4bit,一共是2个byte.

比如一个字符串"banana-banana" 其中一个链表就把所有的ana串起来, 另一把nan串起来, 还有把banana整个串起来的等等...

用来以后查找最相似的字符串用.

jmptable的必要性在于不需要频繁的new-delete. 实际上利用率是很低的. 如果很珍惜内存的话(或者不想12bit偏移4bit长度的话). 完全可以不用(或者改改).

最终得到一串byte和ref的混合体比如 "banana-banana" ==> ban[-2,3]-[-7,6]

我这里用[]把它们两个分开表示, 实际程序中,可以用一个byte表示后续8个节点的属性.

当然,如果后续使用huffman就不用这个了. huffman自己就可以区分不同node的属性.

相比huffman 更推荐算术编码,不过这里不打算涉及,要问为什么的话我跟你们说因为我不懂啊 (括弧笑).

总的来说 lz的理论还是很KISS的.

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

pl___

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

第12课：深入解读基于 Kafka 和 ZooKeeper 的分布式消息队列原理

Jin_Kwok的博客

10-28

413

分布式消息队列是互联网领域广泛应用的中间件，在上一课中，我已经介绍了基于 Kafka、ZooKeeper 的分布式消息队列系统的搭建步骤，以及 Java 客户端的使用方法。对于商业级消息中间件来说，可靠性至关重要，那么，Kafka 是如何确保消息生产、传输、存储及消费过程中的可靠性的呢？本文将从 Kafka 的架构切入，解读 Kafka 基本原理，并对其存储机制、复制原理、同步原理、可靠性和持久...

【ELT.ZIP】OpenHarmony啃论文俱乐部——综述视角解读压缩编码

ELT.ZIP的博客

02-21

567

---本文出自ELT.ZIP团队，ELT<=>Elite(精英)，.ZIP为压缩格式，ELT.ZIP即压缩精英目录入门指北有趣玩件轻松上手小波变换（Wavelet transform）小波变换原理研究方向小波系数零树(EZW)的嵌入式图像编码无损加密后压缩(ETC)技术 Brotli 介绍 Brotli 概述 Brotli 的优势情况1：压缩Canterbury语料库的11个文件情况2：压缩包含 93种不同语言的 1285个HTML文档情况.

参与评论您还未登录，请先登录后发表或查看评论

Enwik8文本压缩数据集

08-24

enwik8包含了100MB未处理的Wikipedia的文本。与enwiki8相似，text8同样包含了100MB的Wikipedia文本，区别在于移除了26个字母和空格以外的其他字符。

词嵌入向量WordEmbedding的原理和生成方法

Keep Fighting!

07-09

3093

转自：https://www.sohu.com/a/210757729_826434WordEmbedding词嵌入向量(WordEmbedding)是NLP里面一个重要的概念，我们可以利用WordEmbedding将一个单词转换成固定长度的向量表示，从而便于进行数学处理。本文将介绍WordEmbedding的使用方式，并讲解如何通过神经网络生成WordEmbedding。WordEmbeddin...

Single Headed Attention RNN: Stop Thinking With Your Head

gdtop的个人笔记

12-03

4733

这篇论文的语言真的很有趣，很多地方我翻译的不是很好大家谅解，可以尽量欣赏原文！ Abstract 语言建模的主要方法都是痴迷于我年轻时的电视节目——变形金刚和芝麻街。我们选择了老办法和经过验证的技术，并使用了一个新奇的、受密码启发的缩写：单头注意力Single Headed AttentionRNN (SHA-RNN)。作者的唯一目标是表明，如果我们沉迷于一个略有不同的缩略词和略有不同的结果...

Brotli 概述

繁依Fanyi的博客

02-24

3378

文章目录Brotli 介绍Brotli 的优势1.2.3.参考 Brotli 介绍现代的网页通常包含了由大量的HTML, CSS和JavaScript代码编写的图片、视频或其他大型文件数据，导致了网页打开的速度很慢。如果能有一种好的压缩算法将这些内容和数据进行压缩后传输，那么用户只需要等待很短时间就可以完全加载整个页面上的内容。 Brotli 是 Google 在 2013 年底推出的一款开源通用数据压缩器，并在 Github 开源，现在已经被大多数知名浏览器和 Web 服务器采用。Brotli 的设计的

面向人工智能应用的《信息论与编码》课程教学初探.pdf

07-11

Lempel-Ziv算法（如LZ77、LZ78）等压缩算法的原理与应用。 4. **数据压缩技术**：在人工智能中，数据压缩不仅能够减少存储空间，还能够加快数据的传输速度。掌握各种压缩技术对于处理大规模数据集尤为重要。 5. **...

Huawei EROFS 初探

Zorro Lang Red Space

03-28

3290

前言华为作为中国代表性的技术型企业，一直在不断推出自己的技术实现，并努力推广到世界，这一点是非常值得称赞的。从大概上游Linux 4.19左右，邮件列表开始出现一个EROFS的东西，不断有邮件的往来。因为太小众，所以当时没有太留意，只是因为EROFS这个名字和写只读文件系统时返回的错误名字一样，所以就留下了印象，其实都没注意到是华为的人做的。最近华为推出新手机，并宣扬自己为手机系统新写的文件系...

技术实践干货 | 初探大规模 GBDT 训练

AI+BI,大数据分析,数据可视化,商业智能,数据驾驶舱 - 观远数据

07-27

860

本文是此前评估在 Spark 上做大规模 GBDT 训练时写的一篇入门级教程与框架评估。目前市面上似乎没有多少使用 Spark 来跑 GBDT 的分享，故分享出来看看是否有做过类似场景的同学可以一道交流。

OpenGL初探：三维迷宫游戏（一）——场景漫游

Traveller

05-30

9626

使用OpenGL实现的一个简单迷宫游戏。

《Relation Memory Argument Language Model》论文笔记

Lisen’s blog

03-21

1159

2023.11.19周报

最新发布

m0_68477761的博客

11-19

168

本周，我研读了《Longformer: The Long-Document Transformer》这篇论文，它针对长文本处理领域中的一个关键挑战——长距离依赖和高时空复杂度问题提出了解决方案。传统的 Transformer 模型在处理长文本时面临效率低下的问题，而 Longformer 通过结合局部自注意力和全局自注意力（稀疏注意力）机制，显著提升了处理长文本的能力。这种创新的注意力机制不仅提高了模型的处理速度，还扩大了其处理文本长度的范围，能够高效处理数万词的文本。

霍夫曼编码和LZ编码

西岸贤

01-06

9848

本文的主要内容是介绍霍夫曼编码和LZ编码的概念及其步骤，同时也有相关的例题分析。

最有效地使用PNG之续篇：Zopfli优化

呦呦鹿鸣

01-11

6989

Zopfli的最大特色是，假设你不介意极高的CPU要求，它就是“用完就丢”的一次性优化步骤，你可以应用在任何地方，而且不会受到任何伤害。

[论文阅读]Character-Level Language Modeling with Deeper Self-Attention

ZY_miao的博客

01-16

885

文章目录前言摘要1、问题背景以及本文要解决的问题1.1 字符级别的语言模型1.2 RNN（变种）如何解决字符级别的语言模型1.3 本文要解决的问题2、如何解决该问题？2.1 Transformer Encoder with Causal Attention2.2 Auxiliary Losses2.2.1 Multiple Postions2.2.2 Intermediate Layer Losses2.2.3 Mutiple Targets2.1 Positional Embeddings3、实验分析（主

[A-Tune智能调优引擎]-学习总结②-应用实战

weixin_44569394的博客

04-07

2094

以下内容参考：https://gitee.com/openeuler/A-Tune 四.A-Tune使用 1.总体说明 atune-adm支持的命令可以通过atune-adm help/--help/-h查询。使用方法中所有命令的使用举例都是在单机部署模式下，如果是在分布式部署模式下，需要指定服务器IP和端口号，例如： atune-adm -a 192.168.3.196 -p 60001 list define、update、undefine、collection、train、u...

信息论实验-信源编码2(Lz编码和算数编码的C++实现)

PiggyGaGa的博客

08-13

1万+

上一篇文章给出了Huffman编码和Shannon Fano编码的编码原理以及C++的程序，程序可以用来实现给任意类型的文件进行无损压缩，缺点是比较耗时，不能作为正常的通用压缩软件来使用，但是作为算法理解，算法思路是没有问题的，后续可能需要进行优化，下面的LZ编码和算数编码和Huffman、Fano编码是走的截然不一样的道路，思想车别很大，但却殊途同归，在算法理解上我借助了一些网友前辈的博客中的例子

编码（文件内容文字）-系统

weixin_43869084的博客

11-30

308

1.成功转换（gbk>utf-8）并写入文件（utf-8） s1（gbk） s2（utf-8） Ps：f=open（path,‘w’/‘r’,encoding=‘gbk’） #coding:utf-8 file = open('D:/20181024biye/s1.txt', 'a',encoding='gbk')#1.无encoding2.encoding='utf-8'3.encodin...

词嵌入向量（Word Embedding）的原理和生成方法