Java尚硅谷数据结构与算法学习记录(12)-赫（哈）夫曼树

最新推荐文章于 2024-08-26 23:12:47 发布

liililiya

最新推荐文章于 2024-08-26 23:12:47 发布

阅读量358

点赞数

文章标签：数据结构 java 算法

本文链接：https://blog.csdn.net/qq_38715538/article/details/106985655

版权

赫夫曼树

给定n个权值作为n个叶子结点，构造一棵二叉树，若该树的带权路径长度(wpl)达到最小，称这样的二叉树为最优二叉树，也称为哈夫曼树(Huffman Tree), 还有的书翻译为霍夫曼树。

路径和路径长度：在一棵树中，从一个结点往下可以达到的孩子或孙子结点之间的通路，称为路径。通路中分支的数目称为路径长度。若规定根结点的层数为1，则从根结点到第L层结点的路径长度为L-1
结点的权及带权路径长度：若将树中结点赋给一个有着某种含义的数值，则这个数值称为该结点的权。结点的带权路径长度为：从根结点到该结点之间的路径长度与该结点的权的乘积
树的带权路径长度规定为所有叶子结点的带权路径长度之和
赫夫曼树是带权路径长度最短的树，权值较大的结点离根较近。

构成赫夫曼树的步骤：

从小到大进行排序, 将每一个数据，每个数据都是一个节点，每个节点可以看成是一颗最简单的二叉树
取出根节点权值最小的两颗二叉树组成一颗新的二叉树, 该新的二叉树的根节点的权值是前面两颗二叉树根节点权值的和
再将这颗新的二叉树，以根节点的权值大小再次排序，
不断重复 1-2-3-4 的步骤，直到数列中，所有的数据都被处理，就得到一颗赫夫曼树

代码实现：

package com.datastructures.tree.huffmantree;

import java.util.ArrayList;
import java.util.Collections;

public class HuffmanTree {

    public static void main(String[] args) {
        int[] arr = {13, 7, 8, 3, 29, 6, 1};
        Node root = creatHuffmanTree(arr);
        preOrder(root);//67,29,38,15,7,8,23,10,4,1,3,6,13
    }

    //前序遍历
    public static void preOrder(Node root) {
        if (root != null) {
            root.preOrder();
        } else {
            System.out.println("空树 无法遍历");
        }

    }

    //创建哈夫曼树
    public static Node creatHuffmanTree(int[] arr) {
        //遍历数组 将数组的每个元素构成一个Node 然后将Node放入到list集合中
        ArrayList<Node> nodes = new ArrayList<>();
        for (int value : arr) {
            nodes.add(new Node(value));
        }
        while (nodes.size() > 1) {
            //排序
            Collections.sort(nodes);
            //System.out.println("nodes =" + nodes);
            //取出根节点权值最小的两个节点（二叉树）
            Node leftNode = nodes.get(0);
            Node rightNode = nodes.get(1);
            //构建成一个新的二叉树
            Node parent = new Node(leftNode.value + rightNode.value);
            parent.left=leftNode;
            parent.right=rightNode;
            //从集合中删除处理过的二叉树
            nodes.remove(leftNode);
            nodes.remove(rightNode);
            //将新构建成的二叉树加入到集合
            nodes.add(parent);
        }
        return nodes.get(0);//返回创建成的哈夫曼树的root
    }


}

class Node implements Comparable<Node> {
    int value;//权值
    Node left;//左子节点
    Node right;//右子节点

    public Node(int value) {
        this.value = value;
    }

    @Override
    public int compareTo(Node o) {
        //从小到大排序
        return this.value - o.value;
    }

    @Override
    public String toString() {
        return "Node{" +
                "value=" + value +
                '}';
    }

    //前序遍历
    public void preOrder() {
        System.out.println(this);
        if (this.left != null) {
            this.left.preOrder();
        }
        if (this.right != null) {
            this.right.preOrder();
        }
    }
}

赫夫曼编码

赫夫曼编码也翻译为哈夫曼编码(Huffman Coding)，又称霍夫曼编码，是一种编码方式, 属于一种程序算法。赫夫曼编码是赫哈夫曼树在电讯通信中的经典的应用之一。赫夫曼编码广泛地用于数据文件压缩。其压缩率通常在20%～90%之间赫夫曼码是可变字长编码(VLC)的一种。Huffman于1952年提出一种编码方法，称之为最佳编码。
在这里插入图片描述 注意, 这个赫夫曼树根据排序方法不同，也可能不太一样，这样对应的赫夫曼编码也不完全一样，但是wpl 是一样的，都是最小的。

应用实例一

利用哈夫曼编码进行数据压缩

将给出的一段文本，比如 “i like like like java do you like a java” ，根据前面的讲的赫夫曼编码原理，对其进行数据压缩处理，形式如 “1010100110111101111010011011110111101001101111011110100001100001110011001111000011001111000100100100110111101111011100100001100001110”
步骤1：根据赫夫曼编码压缩数据的原理，需要创建 “i like like like java do you like a java” 对应的赫夫曼树.
步骤2：生成赫夫曼树对应的赫夫曼编码 , 如下表: =01 a=100 d=11000 u=11001 e=1110 v=11011 i=101 y=11010 j=0010 k=1111 l=000 o=0011
步骤3：使用赫夫曼编码来生成赫夫曼编码数据 ,即按照上面的赫夫曼编码，将"i like like like java do you like a java" 字符串生成对应的编码数据, 形式如下：1010100010111111110010001011111111001000101111111100100101001101110001110000011011101000111100101000101111111100110001001010011011100

代码实现：

package com.datastructures.tree.huffmancode;

import java.util.*;

public class HuffmanCode {
    public static void main(String[] args) {
        String content = "i like like like java do you like a java";
        byte[] contentBytes = content.getBytes();//得到字节数组
        System.out.println(contentBytes.length);
        List<Node> nodes = getNodes(contentBytes);
        System.out.println("nodes" + nodes);
        //测试是否生成哈夫曼树
        Node huffmanTreeRoot = creatHuffmanTree(nodes);
        huffmanTreeRoot.preOrder();
        //测试是否生成了哈夫曼编码
        Map<Byte, String> huffmanCodes = getCodes(huffmanTreeRoot);
        System.out.println("生成的哈夫曼编码表为：" + HuffmanCode.huffmanCodes);//{32=01, 97=100, 100=11000, 117=11001, 101=1110, 118=11011, 105=101, 121=11010, 106=0010, 107=1111, 108=000, 111=0011}
        //测试经哈夫曼编码后转成的数组
        byte[] huffmanCodeBytes=zip(contentBytes,huffmanCodes);
        //压缩后有17个字节[-88, -65, -56, -65, -56, -65, -55, 77, -57, 6, -24, -14, -117, -4, -60, -90, 28]
        System.out.println("经过哈夫曼编码压缩后的数组为："+Arrays.toString(huffmanCodeBytes));
    }
    //编写一个方法 将字符串对应的byte[]数组通过赫夫曼编码表返回一个赫夫曼编码压缩后的byte[]数组

    /**
     * @param bytes        原始的字符串对应的byte[]
     * @param huffmanCodes 生成的哈夫曼编码表
     * @return 返回经过哈夫曼编码压缩后的byte[]
     * 举例：String content = "i like like like java do you like a java"
     * ->1010100010111111110010001011111111001000101111111100100101001101110001110000011011101000111100101000101111111100110001001010011011100
     * byte[] huffmanCodeBytes 8位对应一个byte放入 huffmanCodeBytes
     */
    public static byte[] zip(byte[] bytes, Map<Byte, String> huffmanCodes) {
        //将原始字符串经过huffmanCodes转成赫夫曼编码对应的字符串
        StringBuilder stringBuilder = new StringBuilder();
        //遍历bytes
        for (byte b : bytes) {
            stringBuilder.append(huffmanCodes.get(b));//此时已经将"i like like like java do you like a java"->"1010100010111111110010..."
        }
        //将"1010100010111111110010..."->byte[]
        //统计byte[]的长度
        int len;
        if (stringBuilder.length() % 8 == 0) {
            len = stringBuilder.length() / 8;
        } else {
            len = stringBuilder.length() / 8 + 1;
        }//等价于 in len=(stringBuilder.length()+7) / 8
        byte[] huffmanCodeBytes = new byte[len];
        int index = 0;//记录是第几个byte
        for (int i = 0; i < stringBuilder.length(); i += 8) {//每8位对应一个byte
            String strByte;
            if (i + 8 > stringBuilder.length()) {//不够8位的话直接取到有的位就可
                strByte = stringBuilder.substring(i);
            } else {
                strByte = stringBuilder.substring(i, i + 8);
            }
            //将strByte转成byte放入huffmanCodeBytes
            huffmanCodeBytes[index] = (byte) Integer.parseInt(strByte, 2);
            index++;
        }
        return huffmanCodeBytes;
    }

    //根据创建的哈夫曼树生成哈夫曼编码
    //生成的哈夫曼编码表存放在Map中  形式如：32->01,97->100
    static Map<Byte, String> huffmanCodes = new HashMap<Byte, String>();
    //因为需要记录每个叶子节点的路径  所以借用StringBuilder拼接
    static StringBuilder stringBuilder = new StringBuilder();

    //为了调用方便    对getCodes进行重载
    public static Map<Byte, String> getCodes(Node root) {
        if (root == null) {
            return null;
        } else {
            getCodes(root.left, "0", stringBuilder);
            getCodes(root.right, "1", stringBuilder);
        }
        return huffmanCodes;
    }

    /**
     * 功能：将生成的哈夫曼树的所有叶子节点的哈夫曼编码得到 并存入huffmanCodes集合中
     *
     * @param node          传入的节点
     * @param code          路径  左子节点是0 右子节点是1
     * @param stringBuilder 用于拼接路径
     */
    public static void getCodes(Node node, String code, StringBuilder stringBuilder) {
        StringBuilder stringBuilder1 = new StringBuilder(stringBuilder);
        //每次都将code加入到路径stringBuilder1中
        stringBuilder1.append(code);
        if (node != null) {
            //判断当前节点是否为叶子节点
            //不是叶子节点 则递归
            if (node.data == null) {
                getCodes(node.left, "0", stringBuilder1);
                getCodes(node.right, "1", stringBuilder1);
            } else {//是叶子节点 则将对应路径加入huffmanCodes
                huffmanCodes.put(node.data, stringBuilder1.toString());
            }
        }

    }


    //前序遍历
    public static void preOrder(Node root) {
        if (root != null) {
            root.preOrder();
        } else {
            System.out.println("哈夫曼树为空 无法遍历");
        }

    }

    //将每个数据转成Node然后存入集合
    public static List<Node> getNodes(byte[] bytes) {
        //创建一个ArrayList
        ArrayList<Node> nodes = new ArrayList<Node>();
        //遍历bytes统计每一个字符出现的次数
        Map<Byte, Integer> counts = new HashMap<>();
        for (byte b : bytes) {
            Integer count = counts.get(b);
            if (count == null) {
                counts.put(b, 1);
            } else {
                counts.put(b, count + 1);
            }
        }
        //把每个键值对 转成一个Node对象并加入nodes集合
        for (Map.Entry<Byte, Integer> entry : counts.entrySet()) {
            nodes.add(new Node(entry.getKey(), entry.getValue()));
        }
        return nodes;
    }

    //通过List集合创建哈夫曼树
    public static Node creatHuffmanTree(List<Node> nodes) {
        while (nodes.size() > 1) {
            //排序
            Collections.sort(nodes);
            //取出根节点权值最小的两个节点（二叉树）
            Node leftNode = nodes.get(0);
            Node rightNode = nodes.get(1);
            //构建成一个新的二叉树 只有weight 没有data
            Node parent = new Node(null, leftNode.weight + rightNode.weight);
            parent.left = leftNode;
            parent.right = rightNode;
            //从集合中删除处理过的二叉树
            nodes.remove(leftNode);
            nodes.remove(rightNode);
            //将新构建成的二叉树加入到集合
            nodes.add(parent);
        }
        return nodes.get(0);//返回哈夫曼树的根节点
    }


}

class Node implements Comparable<Node> {
    Byte data;//存放字符
    int weight;//权值：字符出现的次数
    Node left;
    Node right;

    public Node(Byte data, int weight) {
        this.data = data;
        this.weight = weight;
    }

    @Override
    public int compareTo(Node o) {
        //从小到大排
        return this.weight - o.weight;
    }

    @Override
    public String toString() {
        return "Node{" +
                "data=" + data +
                ", weight=" + weight +
                '}';
    }

    //前序遍历
    public void preOrder() {
        System.out.println(this);
        if (this.left != null) {
            this.left.preOrder();
        }
        if (this.right != null) {
            this.right.preOrder();
        }
    }
}

为了方便调用可以写一个方法进行封装：

 //封装
    public static byte[] huffmanZip(byte[] bytes) {
        //1)将字节数组转成Node存入集合
        List<Node> nodes = getNodes(bytes);
        //2)创建哈夫曼树
        Node huffmanTreeRoot = creatHuffmanTree(nodes);
        //3)跟据创建的哈夫曼树生成哈夫曼编码表
        Map<Byte, String> huffmanCodes = getCodes(huffmanTreeRoot);
        //4)根据哈夫曼编码表 压缩原始字节数组
        byte[] huffmanCodeBytes = zip(bytes, huffmanCodes);
        return huffmanCodeBytes;

    }

调用时：

String content = "i like like like java do you like a java";
        byte[] contentBytes = content.getBytes();//得到字节数组
        System.out.println(contentBytes.length);
        byte[] huffmanCodeBytes=huffmanZip(contentBytes);
        System.out.println(Arrays.toString(huffmanCodeBytes));

应用实例二

利用哈夫曼编码进行数据解码
使用赫夫曼编码来解码数据，具体要求是将前面我们得到的赫夫曼编码和对应的编码byte[] , 即:[-88, -65, -56, -65, -56, -65, -55, 77, -57, 6, -24, -14, -117, -4, -60, -90, 28]使用赫夫曼编码，进行解码，又重新得到原来的字符串"i like like like java do you like a java"

代码实现：

//解码
    //思路分析：1、先将huffmanCodeBytes转成对应的二进制字符串 即[-88, -65, -56, ...]->"101010001011111111..."
    //         2、将"101010001011111111..."对照哈夫曼编码 解码成 "i like like like java do you like a java"

    /**
     * 功能：完成对压缩数据的解码
     * @param huffmanCodes     哈夫曼编码表
     * @param huffmanCodeBytes 哈夫曼编码后得到的字节数组 即[-88, -65, -56, ...]
     * @return 原始字符串对应的数组
     */
    public static byte[] decode(Map<Byte, String> huffmanCodes, byte[] huffmanCodeBytes) {
        //1、先得到huffmanCodeBytes对应的二进制的字符串
        StringBuilder stringBuilder = new StringBuilder();
        for (int i = 0; i < huffmanCodeBytes.length; i++) {
            boolean flag = (i == huffmanCodeBytes.length - 1);//判断是否为最后一个字节
            stringBuilder.append(byteToBitString(!flag, huffmanCodeBytes[i]));
        }
        //2、把字符串按照哈夫曼编码表进行解码   把哈夫曼编码表进行调换 实现反向查询 即32->01  ===> 01->32
        Map<String, Byte> map = new HashMap<String, Byte>();
        for (Map.Entry<Byte, String> entry : huffmanCodes.entrySet()) {
            map.put(entry.getValue(), entry.getKey());
        }
        //System.out.println(map);
        //创建List集合存放byte
        List<Object> list = new ArrayList<>();
        for (int i = 0; i < stringBuilder.length(); ) {
            int count = 1;//计数器
            boolean flag = true;
            Byte b = null;
            while (flag) {
                String key = stringBuilder.substring(i, i + count);
                b = map.get(key);
                if (b == null) {//没有匹配到 则移动count 直到匹配到一个字符
                    count++;
                } else {
                    //匹配到则退出循环
                    flag = false;
                }
            }
            list.add(b);
            i += count;//i直接移动到count的位置
        }
        byte b[]=new byte[list.size()];
        for (int i = 0; i <b.length ; i++) {
            b[i]= (byte) list.get(i);
        }
        return b;
    }

    /**
     * 功能：将传入的byte字节转为对应的二进制字符串 即思路分析1
     *
     * @param flag 标识是否需要补高位 true则补位 如果是最后一个字节则不需要补高位
     * @param b    传入的byte字节
     * @return byte字节对应的二进制字符串（按补码返回）
     */
    public static String byteToBitString(boolean flag, byte b) {
        int temp = b;//将b转为int形式
        if (flag) {
            temp = temp | 256;//需要补位 则 按位或上256   如：0000 0001|1 0000 0000=1 0000 0001
        }
        String str = Integer.toBinaryString(temp);
        if (flag) {
            return str.substring(str.length() - 8);
        }
        return str;
    }

应用实例三

文件压缩：思路：读取文件-> 得到赫夫曼编码表 -> 完成压缩
代码实现：

//压缩文件
    public static void zipFile(String srcFile, String dstFile) {
        //创建文件输入流
        FileInputStream is = null;
        //创建文件输出流
        FileOutputStream os = null;
        ObjectOutputStream oos = null;
        try {
            is = new FileInputStream(srcFile);
            //创建一个和源文件一样大小的byte[]
            byte[] b = new byte[is.available()];
            is.read(b);
            //压缩
            byte[] huffmanBytes = huffmanZip(b);
            os = new FileOutputStream(dstFile);
            //创建一个和文件输出流关联的对象流 用对象流是为了便于之后恢复源文件
            oos = new ObjectOutputStream(os);
            //把赫夫曼编码后的字节数组 和 赫夫曼编码表 写入压缩文件
            oos.writeObject(huffmanBytes);
            oos.writeObject(huffmanCodes);

        } catch (Exception e) {
            e.printStackTrace();
        } finally {
            try {
                is.close();
                oos.close();
                os.close();
            } catch (IOException e) {
                e.printStackTrace();
            }
        }
    }

//测试压缩文件
        String srcFile="f://TestZipSrc.jpg";
        String dstFile="d://TestZipDst.zip";
        zipFile(srcFile,dstFile);
        System.out.println("压缩文件成功！");

文件解压：读取压缩文件(数据和赫夫曼编码表)-> 完成解压(文件恢复)
代码实现：

//解压文件
    public static void unZipFile(String zipFile, String dstFile) {
        //定义文件输入流
        InputStream is = null;
        //定义对象流
        ObjectInputStream ois = null;
        //定义输出流
        OutputStream os = null;
        try {
            is = new FileInputStream(zipFile);
            //创建与输入流相关联的
            ois = new ObjectInputStream(is);
            //读取byte[]数组
            byte[] huffmanBytes = (byte[]) ois.readObject();
            //读取赫夫曼编码表huffmanCodes
            Map<Byte, String> huffmanCodes = (Map<Byte, String>) ois.readObject();
            //解码
            byte[] bytes = decode(huffmanCodes, huffmanBytes);
            //将bytes这个数组写入到目标文件
            os = new FileOutputStream(dstFile);
            //写数据
            os.write(bytes);

        } catch (Exception e) {
            System.out.println(e.getMessage());
        } finally {
            try {
                os.close();
                ois.close();
                is.close();
            } catch (Exception e2) {
                System.out.println(e2.getMessage());
            }


        }
    }

 //测试解压文件
        String zipFile = "d://TestZipDst.zip";
        String dstFile = "f://TestZipSrc2.jpg";
        unZipFile(zipFile,dstFile);
        System.out.println("解压文件成功！");

赫夫曼编码压缩文件注意事项

如果文件本身就是经过压缩处理的，那么使用赫夫曼编码再压缩效率不会有明显变化, 比如视频,ppt 等等文件
赫夫曼编码是按字节来处理的，因此可以处理所有的文件(二进制文件、文本文件)
如果一个文件中的内容，重复的数据不多，压缩效果也不会很明显.

liililiya

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
Java尚硅谷数据结构与算法学习记录(12)-赫（哈）夫曼树

赫夫曼树给定n个权值作为n个叶子结点，构造一棵二叉树，若该树的带权路径长度(wpl)达到最小，称这样的二叉树为最优二叉树，也称为哈夫曼树(Huffman Tree), 还有的书翻译为霍夫曼树。路径和路径长度：在一棵树中，从一个结点往下可以达到的孩子或孙子结点之间的通路，称为路径。通路中分支的数目称为路径长度。若规定根结点的层数为1，则从根结点到第L层结点的路径长度为L-1结点的权及带权路径长度：若将树中结点赋给一个有着某种含义的数值，则这个数值称为该结点的权。结点的带权路径长度为：从根结点到该结点之间
复制链接

扫一扫