哈夫曼(Huffman)编码在word2vec中的应用

哈夫曼(Huffman)编码

假设给定 n 个权值{w1,w2,...,wn}作为二叉树的 n 个叶子结点,若二叉树的带权路径长度达到最小, 则称这样的二叉树为最优二叉树,也称为 Huffinan 树。构造一棵 Huffman 树算法如下:

 1.1:构造一棵 Huffman 树

  1.  将{ w1,w2,...,wn}看成是有 n 棵树的森林(每棵树仅有一个结点)。

  2.  在森林中选出两个根结点的权值最小的树合并,作为一棵新树的左、右子树,且新树的根结点权值为其左、右子树根结点权值之和。

  3.  从森林中删除选取的两棵树,并将新树加入森林。

  4.  重复2,3步,直到森林中只利一棵树为止,该树即为所求的Huffman树。

例子:

假设在 2022 年北京冬奥会前夕,从新华社抓取了若干条与冬奥会相关的文章,经统计,“我”、

“期待”、“观看”、“北京”、“冬奥”、“运动会”这六个词出现的次数分别为 15,8,6,5,3,1,请以这 6 个 词为叶子结点,以相应词频当权值,构造一棵 Huffman 树。

分析:词频越大的词离根结点 越近。在实际应用中,各个字符的出现频度或使用次数是不相同的,让使用频率高的用短码,使用频率低的用长码, 以优化整个报文编码。利用 Huffman 树设计的二进制前缀编码,称为 Huffman 编码。如图建构:

六个词的 Huffman 编码,其中约定(词频较大的)左孩子结点编码为 1, (词频较小的)右孩子编码为0。因此,“我”、“期待”、“观看”、“北京”、“冬奥”、“运动会”这六个词的 Huffman 编码分别为 0, 111, 110, 101, 1001 和 1000。

在word2vec的CBOW的输出层的应用

 

图1.2​​​​​

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值