数据结构_哈夫曼树(python实现)

文章介绍了哈夫曼树的基本概念,用于数据压缩和编码,以及在NLP领域Word2Vec模型中层次softmax的优化方法。提供了哈夫曼树的Python构建代码,并展示了如何生成哈夫曼编码和路径。

哈夫曼树是一种重要的数据结构,用于压缩和编码数据。它由经典的数学家和计算机科学家大卫哈夫曼在20世纪50年代发明。哈夫曼树的目的是为了在编码和解码数据中,尽可能地减少所需的比特数。换句话说,它可以将大量数据压缩为在传输过程中所需的最小比特数。

在NLP领域的词向量开篇制作Word2Vec中用到了一种softmax优化方法——层次softmax,就是将词频编码成哈夫曼树的形式,然后,(以skip-gram为例)在样本[v, w]进入模型前,将周围词w,基于哈夫曼树映射成从根到叶路径两个方向路径right_path=[p1, p2]; left_path=[n1, n2],最终组成[[v, p1], [v, p2]]; [[v, n1], [v, n2],最后以v, p, v, n 四个一维向量的方式进入模型。

一、哈夫曼树构建伪代码

哈夫曼树的构建过程非常简单,可以分为以下几个步骤:

  1. 根据数据出现的频率创建叶子节点,频率越高的字母对应的节点越靠近根节点。
  2. 对于两个字符的节点(由频率最低的字符所对应的节点)之间创建一个父节点。父节点的权重等于其两个子节点权重之和。
  3. 重复步骤2,直到所有的节点都被合并到同一个根节点下。

哈夫曼树构建图示

在这里插入图片描述

二、哈夫曼树构建python

借助优先队列headq 便于快速输出最小的2个节点

import heapq 

class Node: 
    def __init__(self, idx, freq, char, left, right):
        self.idx = idx
        self.freq = freq
        self.char = char
        self.left = left
        self.right = right
        
    def __lt__(self, other): 
        return self.freq < other.freq 
    
    def __str__(self):
        return f'Node([{
     
     self.idx}]({
     
     self.char}/{
     
     self.freq}), left={
     
     self.left}, right={
     
     self.right})'
    
    def __repr__(self):
        return str(self)


def build_huffman_tree(data=None, freq_map=None): 
    if freq_map is None:
        freq_map = dict() 
        for char in data: 
            freq_map[char] = freq_map.get(char, 0) + 1 
    print(freq_map)
    word_map = [Node(idx, freq
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

Scc_hy

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值