哈夫曼（Huffman）编码在word2vec中的应用

最新推荐文章于 2023-12-23 19:32:32 发布

x_cube

最新推荐文章于 2023-12-23 19:32:32 发布

阅读量334

点赞数

分类专栏： NLP 文章标签： word2vec 算法数据结构霍夫曼树

原文链接：https://zhuanlan.zhihu.com/p/412474627

版权

NLP 专栏收录该内容

2 篇文章 0 订阅

订阅专栏

哈夫曼（Huffman）编码

假设给定 n 个权值{w1，w2，...，wn}作为二叉树的 n 个叶子结点，若二叉树的带权路径长度达到最小，则称这样的二叉树为最优二叉树，也称为 Huffinan 树。构造一棵 Huffman 树算法如下:

1.1:构造一棵 Huffman 树

将{ w1，w2，...，wn}看成是有 n 棵树的森林(每棵树仅有一个结点)。
在森林中选出两个根结点的权值最小的树合并，作为一棵新树的左、右子树，且新树的根结点权值为其左、右子树根结点权值之和。
从森林中删除选取的两棵树，并将新树加入森林。
重复2,3步，直到森林中只利一棵树为止，该树即为所求的Huffman树。

例子：

假设在 2022 年北京冬奥会前夕，从新华社抓取了若干条与冬奥会相关的文章，经统计，“我”、

“期待”、“观看”、“北京”、“冬奥”、“运动会”这六个词出现的次数分别为 15，8，6，5，3，1，请以这 6 个词为叶子结点，以相应词频当权值，构造一棵 Huffman 树。

分析：词频越大的词离根结点越近。在实际应用中,各个字符的出现频度或使用次数是不相同的,让使用频率高的用短码,使用频率低的用长码, 以优化整个报文编码。利用 Huffman 树设计的二进制前缀编码,称为 Huffman 编码。如图建构：

六个词的 Huffman 编码,其中约定(词频较大的)左孩子结点编码为 1, (词频较小的)右孩子编码为0。因此，“我”、“期待”、“观看”、“北京”、“冬奥”、“运动会”这六个词的 Huffman 编码分别为 0, 111, 110, 101, 1001 和 1000。

在word2vec的CBOW的输出层的应用

图1.2

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
哈夫曼（Huffman）编码在word2vec中的应用

哈夫曼（Huffman）编码在word2vec中的应用
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。