树结构_赫夫曼树，赫夫曼编码，文件解压缩

最新推荐文章于 2021-01-31 16:24:02 发布

泥煤少年的博客

最新推荐文章于 2021-01-31 16:24:02 发布

阅读量289

点赞数

分类专栏：数据结构与算法文章标签：字符串二叉树 java 数据结构

本文链接：https://blog.csdn.net/qq_17852541/article/details/107548653

版权

数据结构与算法专栏收录该内容

30 篇文章 12 订阅

订阅专栏

【赫夫曼树】

赫夫曼编码

压缩与解压文件（赫夫曼编码）

【赫夫曼树】

赫夫曼树（最优二叉树），也有其他译名，它的本质就是所有叶子结点的带权路径长度之和最小的二叉树，所有叶子结点的带权路径长度又叫WPL（weighted path length）。WPL=所有叶子结点权值*路径长度之和，如下3种树，中间这个树的排列方式，使得wpl最小，所以它属于赫夫曼树。

赫夫曼树的特点就在于：结点权值越大的与根节点离得越近

如何创建一个赫夫曼树？

第一步：将权值数组中的数据包装入事先创建好的结点类中，结点类的num保存权值，然后将每一个结点放入到动态数组（ArrayList）中

在这里插入图片描述
第二步：将这些动态数组中的节点按照权值的大小进行排序。

在这里插入图片描述
第三步：取出权值最小的两个节点，并创建一个新的节点作为这两个节点的父节点，这个父节点的权值为两个子节点的权值之和。将这两个节点分别赋给父节点的左右节点。

在这里插入图片描述

第四步：删除这两个节点，将父节点添加进动态数组里。

在这里插入图片描述

第五步：重复第二步到第四步，直到集合中只剩一个元素，结束循环。此时剩余的元素就是赫夫曼树的根节点

在这里插入图片描述

代码实现：

package cn.dataStructureAndAlgorithm.demo.tree;

import java.util.ArrayList;
import java.util.Collections;
import java.util.List;
class Node_HT implements Comparable<Node_HT>{
    private int num;
    private Node_HT left;
    private Node_HT right;

    public Node_HT(int num) {
        this.num = num;
    }

    public void setLeft(Node_HT left) {
        this.left = left;
    }

    public void setRight(Node_HT right) {
        this.right = right;
    }

    public Node_HT getLeft() {
        return left;
    }

    public Node_HT getRight() {
        return right;
    }

    public int getNum() {
        return num;
    }

    @Override
    public String toString() {
        return "Node_HT{" +
                "num=" + num +
                '}';
    }

    @Override
    public int compareTo(Node_HT o) {
        return this.num-o.num;//表示升序
    }
}
public class 赫夫曼树_HuffmanTree {
    public static void main(String[] args) {
        int data[]=new int[]{13,7,8,3,29,6,1};
        Node_HT huffmanTree=huffmanTree(data);
        preOrder(huffmanTree);

    }
    public static void preOrder(Node_HT node){
        System.out.println(node);
        if (node.getLeft()!=null){
            preOrder(node.getLeft());
        }
        if (node.getRight()!=null){
            preOrder(node.getRight());
        }
    }
    public static Node_HT huffmanTree(int[] data) {
        List<Node_HT> nodeList = new ArrayList();//动态数组容纳数据
        //遍历数组，将其包装入Node类，并包装入动态数组中
        for (int i=0;i<data.length;i++){
            nodeList.add(new Node_HT(data[i]));
        }
        //创建赫夫曼树
        while (nodeList.size()>1){//当只剩下一个结点时，说明赫夫曼树已经创建成功
            Collections.sort(nodeList);//Node类要实现Comparable接口，才能进行排序
            //获取前两个小结点，进行子树的创建
            Node_HT leftNode=nodeList.get(0);
            Node_HT rightNode=nodeList.get(1);
            Node_HT parent=new Node_HT(leftNode.getNum()+rightNode.getNum());
            parent.setLeft(leftNode);
            parent.setRight(rightNode);
            //将创建的子树加入到动态数组中，并删除两个小节点
            nodeList.remove(1);
            nodeList.remove(0);
            nodeList.add(parent);
        }
        //循环完成，动态数组中只剩下一个结点，这个结点就是赫夫曼树的根节点
        return nodeList.get(0);
    }
}

赫夫曼编码

前排提示：复杂且难，但学完后可以自制压缩工具，满满的成就感：>

赫夫曼编码是赫夫曼树的一种应用，赫夫曼编码可以有效的压缩数据（压缩率：20%~90%）。

一般编码数据的过程是这样的：

yes（字符串）---> 121 101 115（ASCII）---> 011110101 01100101 01110011（二进制）

数据由3个字符变化为27个字符，这种编码方式称为可变字长编码，但这种编码存在一种前缀二义性的问题：当识别到前缀0111后，对应了两个字节组 011110101与01110011，无法区分。

赫夫曼编码就是一种可变字长编码。赫夫曼编码主要解决的问题在于如何把27个字符进一步的缩减，和解决前缀二义性的问题。

赫夫曼编码：

yes（字符串）---> y:1 e:1 s:1（字符:出现次数）---> 以出现字符次数为权值建立赫夫曼树，如下图 --->根据赫夫曼树，给各个字符规定编码（前缀编码），向左的路径为0，向右的路径为1，如下图 ---> y:00 e:01 s:1（字符:前缀）---> 00011（赫夫曼编码）

以上将“yes”变为“00011”，用y=00 e=01 s=1的形式替换字符，这样不存在前缀二义性问题且压缩了数据

ps：当存在权值相同的结点时，由于排序算法的不稳定性，相同结点可能具有多种位置，所形成的赫夫曼树也有多种。但他们的wpl是一样的，形成的赫夫曼编码位数相同。

分步代码实现：

【1】完成字符出现次数记录，与赫夫曼树的建立

package cn.dataStructureAndAlgorithm.demo.tree;

import java.util.*;

class Node_HC implements Comparable<Node_HC>{
    private int weight;
    private Byte data;
    private Node_HC left;
    private Node_HC right;

    public Node_HC(int weight,Byte data) {
        this.weight = weight;
        this.data=data;
    }

    public void setLeft(Node_HC left) {
        this.left = left;
    }

    public void setRight(Node_HC right) {
        this.right = right;
    }

    public Node_HC getLeft() {
        return left;
    }

    public Node_HC getRight() {
        return right;
    }

    public int getWeight() {
        return weight;
    }

    @Override
    public String toString() {
        return "Node_HC{" +
                "weight=" + weight +
                '}';
    }

    @Override
    public int compareTo(Node_HC o) {
        return this.weight-o.weight;//表示升序
    }

}
public class 赫夫曼编码_HuffmanCode {
    public static void main(String[] args) {
        String str="hello world!";
        preOrder(huffmanCode(str));

    }
    public static Node_HC huffmanCode(String str){
        //将字符串转为字节数组
        byte[] byteStr=str.getBytes();
        //map集合用于把byteStr中的相同字节组合出现的次数进行统计
        Map<Byte,Integer> counts= new HashMap<>();
        //ArraysList集合用于把map集合中的数据包装入结点类中，并保存在动态数组集合中
        List<Node_HC> nodeList=new ArrayList<>();

        //字节组统计
        for (byte temp:byteStr) {
            Integer count=counts.get(temp);//获取temp对应的次数
            if (count==null){//还未保存temp的次数
                counts.put(temp,1);//初始化temp次数
            }else {//保存有temp的次数
                counts.put(temp,count+1);//temp次数加一
            }
        }
        //map集合数据入list集合
        for (Map.Entry<Byte,Integer> temp:counts.entrySet()){
            nodeList.add(new Node_HC(temp.getValue(),temp.getKey()));
        }
        return huffmanTree(nodeList);
    }
    public static Node_HC huffmanTree(List<Node_HC> nodeList){
        while (nodeList.size()>1){
            Collections.sort(nodeList);
            Node_HC leftNode =nodeList.get(0);
            Node_HC rightNode=nodeList.get(1);
            Node_HC parent=new Node_HC(leftNode.getWeight()+rightNode.getWeight(),null );//父节点只保存权重，不保存内容
            parent.setLeft(leftNode);
            parent.setRight(rightNode);
            nodeList.remove(leftNode);
            nodeList.remove(rightNode);
            nodeList.add(parent);
        }
        return nodeList.get(0);
    }
    public static void preOrder(Node_HC node){
        System.out.println(node);
        if (node.getLeft()!=null){
            preOrder(node.getLeft());
        }
        if (node.getRight()!=null){
            preOrder(node.getRight());
        }
    }
}

测试结果：

Node_HC{weight=12}
Node_HC{weight=5}
Node_HC{weight=2}
Node_HC{weight=1}
Node_HC{weight=1}
Node_HC{weight=3}
Node_HC{weight=7}
Node_HC{weight=3}
Node_HC{weight=1}
Node_HC{weight=2}
Node_HC{weight=4}
Node_HC{weight=2}
Node_HC{weight=1}
Node_HC{weight=1}
Node_HC{weight=2}
Node_HC{weight=1}
Node_HC{weight=1}

【2】在主类中新增getCodes方法，用于根据传入的赫夫曼树，以左路径为0，右路径为1 的形式获取叶子结点对应字符的赫夫曼编码

/**
     * 根据传入的赫夫曼树，以左路径为0，右路径为1 的形式获取叶子结点对应的字符赫夫曼编码表
     * @param node 赫夫曼树的根节点
     * @param stringBuilder 用来保存上一次递归中的拼凑路径
     * @param huffmanCodes 用来保存叶子结点对应的赫夫曼编码
     */
    public static void getCodes(Node_HC node,String code,StringBuilder stringBuilder,Map<Byte,String> huffmanCodes){
        StringBuilder stringBuilder2=new StringBuilder(stringBuilder);//stringBulider2保存上一次的字符串内
        stringBuilder2.append(code);//将当前路径代码（0/1）拼接到上一次递归的字符串中
        if (node!=null){//node为空不操作
            if (node.getData()==null){//非叶子结点，继续递归
                //左递归
                getCodes(node.getLeft(),"0",stringBuilder2,huffmanCodes);
                //右递归
                getCodes(node.getRight(),"1",stringBuilder2,huffmanCodes);
            }else {
                //保存叶子结点对应的赫夫曼编码
                huffmanCodes.put(node.getData(),stringBuilder2.toString());
            }
        }
    }

另外修改了huffmanCode方法，用于和新方法getCode进行对接

/**
     * 赫夫曼编码操作总方法
     * @param str 需要编码的字符串
     * @return 字符串对应的赫夫曼编码表（测试）
     */
    public static Map<Byte, String> huffmanCode(String str) {
        //将字符串转为字节数组
        byte[] byteStr = str.getBytes();
        //map集合用于把byteStr中的相同字节组合出现的次数进行统计
        Map<Byte, Integer> counts = new HashMap<>();
        //ArraysList集合用于把map集合中的数据包装入结点类中，并保存在动态数组集合中
        List<Node_HC> nodeList = new ArrayList<>();

        //字节组统计
        for (byte temp : byteStr) {
            Integer count = counts.get(temp);//获取temp对应的次数
            if (count == null) {//还未保存temp的次数
                counts.put(temp, 1);//初始化temp次数
            } else {//保存有temp的次数
                counts.put(temp, count + 1);//temp次数加一
            }
        }
        //map集合数据入list集合
        for (Map.Entry<Byte, Integer> temp : counts.entrySet()) {
            nodeList.add(new Node_HC(temp.getValue(), temp.getKey()));
        }
        //-------------------新增部分---------------------------------------------------
        //创建赫夫曼树，并获取赫夫曼编码
        Map<Byte,String> huffmanCodes=new HashMap();//赫夫曼编码表
        getCodes(huffmanTree(nodeList),"",new StringBuilder(),huffmanCodes);
        return huffmanCodes;
    }

主方法中添加测试语句，输出得到的赫夫曼编码表

System.out.println(huffmanCode(str));

测试结果：

{32=1100, 33=1101, 114=1110, 100=1111, 101=000, 119=001, 104=100, 108=01, 111=101}

【3】在主类新增tohuffmanString方法，用于按照赫夫曼编码表，将待编码的字符串转为赫夫曼字符串（即字符按顺序转换成对应的赫夫曼编码，并拼接在一起，形成所谓赫夫曼字符串）

/**
     * 按照赫夫曼编码表，将待编码的字符串转为赫夫曼字符串
     * @param str 待编码的字符串
     * @param huffmanCodes 赫夫曼编码表
     * @return 赫夫曼字符串
     */
    public static String toHuffmanString(String str,Map<Byte,String> huffmanCodes){
        StringBuilder stringBuilder=new StringBuilder();//用于拼接成赫夫曼字符串
        byte[] strByte=str.getBytes();//将待编码的数据，转换为字符数组
        //按照赫夫曼编码表，将待编码的字符串转为赫夫曼字符串
        for (byte temp:strByte) {
            stringBuilder.append(huffmanCodes.get(temp));
        }
        return stringBuilder.toString();
    }

另外修改了huffmanCode方法，用于和新方法toHuffmanString进行对接

/**
     * 赫夫曼编码操作总方法
     * @param str 需要编码的字符串
     * @return 字符串对应的赫夫曼字符串（测试）
     */
    public static String huffmanCode(String str) {
        //将字符串转为字节数组
        byte[] byteStr = str.getBytes();
        //map集合用于把byteStr中的相同字节组合出现的次数进行统计
        Map<Byte, Integer> counts = new HashMap<>();
        //ArraysList集合用于把map集合中的数据包装入结点类中，并保存在动态数组集合中
        List<Node_HC> nodeList = new ArrayList<>();

        //字节组统计
        for (byte temp : byteStr) {
            Integer count = counts.get(temp);//获取temp对应的次数
            if (count == null) {//还未保存temp的次数
                counts.put(temp, 1);//初始化temp次数
            } else {//保存有temp的次数
                counts.put(temp, count + 1);//temp次数加一
            }
        }
        //map集合数据入list集合
        for (Map.Entry<Byte, Integer> temp : counts.entrySet()) {
            nodeList.add(new Node_HC(temp.getValue(), temp.getKey()));
        }
        //创建赫夫曼树，并获取赫夫曼编码
        Map<Byte,String> huffmanCodes=new HashMap();//赫夫曼编码表
        getCodes(huffmanTree(nodeList),"",new StringBuilder(),huffmanCodes);//建树，获取编码
        //----------------------------------新增部分-----------------------------------------
        //获取赫夫曼字符串
        return toHuffmanString(str,huffmanCodes);
    }

测试结果：

1000000101101110000110111100111111101

【4】在主类新增zip方法，用于将赫夫曼字符串压缩成字节数组

/**
     * 将赫夫曼字符串压缩成字节数组
     * @param huffmanStr 赫夫曼字符串
     * @return 压缩的字节数组
     */
    public static byte[] zip(String huffmanStr){
        //将赫夫曼字符串按8位截断，并按照二进制转字节的方式转为字节数组，起到压缩的效果
        int len=(huffmanStr.length()+7)/8;//巧妙的算法：将字符串按8位拆分，不够8位的按8位拆分
        byte[] huffmanCodeByte=new byte[len];//存储压缩后的数据
        int index=0;//存储索引
        String byteStr;//存储拆分后的字符串
        //将赫夫曼字符串8位截断后，压缩成字节数组
        for (int i=0;i<huffmanStr.length();i+=8){
            if (i+8>huffmanStr.length()){//不够8位
                byteStr=huffmanStr.substring(i);
            }else {//够8位
                byteStr=huffmanStr.substring(i,i+8);
            }
            huffmanCodeByte[index]=(byte)Integer.parseInt(byteStr,2);//按照二进制转字节的方式转为字节数组
            index++;
        }
        return huffmanCodeByte;
    }

另外修改了huffmanCode方法，将其方法名改为huffmanZip，用于和新方法zip进行对接

/**
     * 赫夫曼编码操作总方法
     * @param str 需要编码的字符串
     * @return 字符串对应的压缩字节数组（测试）
     */
    public static byte[] huffmanZip(String str) {
        //将字符串转为字节数组
        byte[] byteStr = str.getBytes();
        //map集合用于把byteStr中的相同字节组合出现的次数进行统计
        Map<Byte, Integer> counts = new HashMap<>();
        //ArraysList集合用于把map集合中的数据包装入结点类中，并保存在动态数组集合中
        List<Node_HC> nodeList = new ArrayList<>();

        //字节组统计
        for (byte temp : byteStr) {
            Integer count = counts.get(temp);//获取temp对应的次数
            if (count == null) {//还未保存temp的次数
                counts.put(temp, 1);//初始化temp次数
            } else {//保存有temp的次数
                counts.put(temp, count + 1);//temp次数加一
            }
        }
        //map集合数据入list集合
        for (Map.Entry<Byte, Integer> temp : counts.entrySet()) {
            nodeList.add(new Node_HC(temp.getValue(), temp.getKey()));
        }
        //创建赫夫曼树，并获取赫夫曼编码
        Map<Byte,String> huffmanCodes=new HashMap();//赫夫曼编码表
        getCodes(huffmanTree(nodeList),"",new StringBuilder(),huffmanCodes);//建树，获取编码
        //----------------------------------新增部分-----------------------------------------
        //通过获取赫夫曼字符串，得到压缩字节数组
        return zip(toHuffmanString(str,huffmanCodes));
    }

主方法中添加测试语句，输出得到的压缩后的字节数组：

System.out.println(Arrays.toString(huffmanZip(str)));

测试结果：

[-127, 110, 27, -49, 29]

【5】在主类中新增huffmanUnZip，toBinary方法，前者提供解码文件的功能，后者为前者提供字节转二进制字符串的服务。

/**
     *解码文件
     * @param huffmanCodeByte 待解码文件的字节数组
     * @return 解码后的字符串
     */
    public static String huffmanUnZip(byte[] huffmanCodeByte){
        StringBuilder stringBuilder=new StringBuilder();
        for (byte temp:huffmanCodeByte) {
            if (temp!=huffmanCodeByte[huffmanCodeByte.length-1]){
                stringBuilder.append(toBinary(true,temp));
            }else {
                stringBuilder.append(toBinary(false,temp));
            }
        }
        Map<String,Byte> reverseHuffmanCodes=new HashMap<>();
        for (Map.Entry<Byte,String> temp: huffmanCodes.entrySet()) {
            reverseHuffmanCodes.put(temp.getValue(),temp.getKey());
        }
        int index=1;
        String key;
        Byte b;
        List<Byte> result=new ArrayList<>();
        for (int i=0;i<stringBuilder.length();){
            while (true){
                key=stringBuilder.substring(i,i+index);
                b=reverseHuffmanCodes.get(key);
                if (b==null){
                    index++;
                }else {
                    break;
                }
            }
            result.add(b);
            i+=index;
            index=1;
        }
        byte[] stringByte = new byte[result.size()];
        for (int i=0;i<stringByte.length;i++){
            stringByte[i]=result.get(i);
        }
        return new String(stringByte);
    }

/**
     *将字节转为二进制字符串
     * @param flag 是否要部高位
     * @param huffmanCodeByte 字节
     * @return 二进制字符串
     */
    public static String toBinary(boolean flag,byte huffmanCodeByte){
        int temp=huffmanCodeByte;//字节转整数
        if (flag){//需要补高位
            temp|=256;
        }
        String str = Integer.toBinaryString(temp);
        if (flag||temp<0){
            return str.substring(str.length()-8);
        }else {
            return str;
        }
    }
}

主方法中添加测试语句，输出得到的解码后的字符串

System.out.println(huffmanUnZip(huffmanZip(str)));

测试结果：

hello world!

赫夫曼编码的完整代码：

package cn.dataStructureAndAlgorithm.demo.tree;
import java.util.*;
public class 赫夫曼编码_HuffmanCode {
    static Map<Byte,String> huffmanCodes=new HashMap();//全局赫夫曼编码表
    public static void main(String[] args) {
        String str="hello world!";
        System.out.println("编码后："+Arrays.toString(huffmanZip(str)));
        System.out.println("解码后："+huffmanUnZip(huffmanZip(str)));

    }
    /**
     * 赫夫曼编码操作总方法
     * @param str 需要编码的字符串
     * @return 字符串对应的压缩字节数组（测试）
     */
    public static byte[] huffmanZip(String str) {
        //将字符串转为字节数组
        byte[] byteStr = str.getBytes();
        //map集合用于把byteStr中的相同字节组合出现的次数进行统计
        Map<Byte, Integer> counts = new HashMap<>();
        //ArraysList集合用于把map集合中的数据包装入结点类中，并保存在动态数组集合中
        List<Node_HC> nodeList = new ArrayList<>();

        //字节组统计
        for (byte temp : byteStr) {
            Integer count = counts.get(temp);//获取temp对应的次数
            if (count == null) {//还未保存temp的次数
                counts.put(temp, 1);//初始化temp次数
            } else {//保存有temp的次数
                counts.put(temp, count + 1);//temp次数加一
            }
        }
        //map集合数据入list集合
        for (Map.Entry<Byte, Integer> temp : counts.entrySet()) {
            nodeList.add(new Node_HC(temp.getValue(), temp.getKey()));
        }
        //创建赫夫曼树，并获取赫夫曼编码
        getCodes(huffmanTree(nodeList),"",new StringBuilder(),huffmanCodes);//建树，获取编码
        //----------------------------------新增部分-----------------------------------------
        //通过获取赫夫曼字符串，得到压缩字节数组
        return zip(toHuffmanString(str,huffmanCodes));
    }
    /**
     * 根据动态数组中的结点创建赫夫曼树
     * @param nodeList 包含各结点的动态数组
     * @return 赫夫曼树
     */
    public static Node_HC huffmanTree(List<Node_HC> nodeList){
        while (nodeList.size()>1){
            Collections.sort(nodeList);
            Node_HC leftNode =nodeList.get(0);
            Node_HC rightNode=nodeList.get(1);
            Node_HC parent=new Node_HC(leftNode.getWeight()+rightNode.getWeight(),null );//父节点只保存权重，不保存内容
            parent.setLeft(leftNode);
            parent.setRight(rightNode);
            nodeList.remove(leftNode);
            nodeList.remove(rightNode);
            nodeList.add(parent);
        }
        return nodeList.get(0);
    }

    /**
     * 根据传入的赫夫曼树，以左路径为0，右路径为1 的形式获取叶子结点对应的字符赫夫曼编码表
     * @param node 赫夫曼树的根节点
     * @param stringBuilder 用来保存上一次递归中的拼凑路径
     * @param huffmanCodes 用来保存叶子结点对应的赫夫曼编码
     */
    public static void getCodes(Node_HC node,String code,StringBuilder stringBuilder,Map<Byte,String> huffmanCodes){
        StringBuilder stringBuilder2=new StringBuilder(stringBuilder);//stringBulider2保存上一次的字符串内
        stringBuilder2.append(code);//将当前路径代码（0/1）拼接到上一次递归的字符串中
        if (node!=null){//node为空不操作
            if (node.getData()==null){//非叶子结点，继续递归
                //左递归
                getCodes(node.getLeft(),"0",stringBuilder2,huffmanCodes);
                //右递归
                getCodes(node.getRight(),"1",stringBuilder2,huffmanCodes);
            }else {
                //保存叶子结点对应的赫夫曼编码
                huffmanCodes.put(node.getData(),stringBuilder2.toString());
            }
        }
    }

    /**
     * 按照赫夫曼编码表，将待编码的字符串转为赫夫曼字符串
     * @param str 待编码的字符串
     * @param huffmanCodes 赫夫曼编码表
     * @return 赫夫曼字符串
     */
    public static String toHuffmanString(String str,Map<Byte,String> huffmanCodes){
        StringBuilder stringBuilder=new StringBuilder();//用于拼接成赫夫曼字符串
        byte[] strByte=str.getBytes();//将待编码的数据，转换为字符数组
        //按照赫夫曼编码表，将待编码的字符串转为赫夫曼字符串
        for (byte temp:strByte) {
            stringBuilder.append(huffmanCodes.get(temp));
        }
        return stringBuilder.toString();
    }

    /**
     * 将赫夫曼字符串压缩成字节数组
     * @param huffmanStr 赫夫曼字符串
     * @return 压缩的字节数组
     */
    public static byte[] zip(String huffmanStr){
        //将赫夫曼字符串按8位截断，并按照二进制转字节的方式转为字节数组，起到压缩的效果
        int len=(huffmanStr.length()+7)/8;//巧妙的算法：将字符串按8位拆分，不够8位的按8位拆分
        byte[] huffmanCodeByte=new byte[len];//存储压缩后的数据
        int index=0;//存储索引
        String byteStr;//存储拆分后的字符串
        //将赫夫曼字符串8位截断后，压缩成字节数组
        for (int i=0;i<huffmanStr.length();i+=8){
            if (i+8>huffmanStr.length()){//不够8位
                byteStr=huffmanStr.substring(i);
            }else {//够8位
                byteStr=huffmanStr.substring(i,i+8);
            }
            huffmanCodeByte[index]=(byte)Integer.parseInt(byteStr,2);//按照二进制转字节的方式转为字节数组
            index++;
        }
        return huffmanCodeByte;
    }

    /**
     *解码文件
     * @param huffmanCodeByte 待解码文件的字节数组
     * @return 解码后的字符串
     */
    public static String huffmanUnZip(byte[] huffmanCodeByte){
        StringBuilder stringBuilder=new StringBuilder();
        for (byte temp:huffmanCodeByte) {
            if (temp!=huffmanCodeByte[huffmanCodeByte.length-1]){
                stringBuilder.append(toBinary(true,temp));
            }else {
                stringBuilder.append(toBinary(false,temp));
            }
        }
        Map<String,Byte> reverseHuffmanCodes=new HashMap<>();
        for (Map.Entry<Byte,String> temp: huffmanCodes.entrySet()) {
            reverseHuffmanCodes.put(temp.getValue(),temp.getKey());
        }
        int index=1;
        String key;
        Byte b;
        List<Byte> result=new ArrayList<>();
        for (int i=0;i<stringBuilder.length();){
            while (true){
                key=stringBuilder.substring(i,i+index);
                b=reverseHuffmanCodes.get(key);
                if (b==null){
                    index++;
                }else {
                    break;
                }
            }
            result.add(b);
            i+=index;
            index=1;
        }
        byte[] stringByte = new byte[result.size()];
        for (int i=0;i<stringByte.length;i++){
            stringByte[i]=result.get(i);
        }
        return new String(stringByte);
    }

    /**
     *将字节转为二进制字符串
     * @param flag 是否要部高位
     * @param huffmanCodeByte 字节
     * @return 二进制字符串
     */
    public static String toBinary(boolean flag,byte huffmanCodeByte){
        int temp=huffmanCodeByte;//字节转整数
        if (flag){//需要补高位
            temp|=256;
        }
        String str = Integer.toBinaryString(temp);
        if (flag||temp<0){
            return str.substring(str.length()-8);
        }else {
            return str;
        }
    }
}

class Node_HC implements Comparable<Node_HC>{
    private int weight;
    private Byte data;
    private Node_HC left;
    private Node_HC right;

    public Node_HC(int weight,Byte data) {
        this.weight = weight;
        this.data=data;
    }

    public Byte getData() {
        return data;
    }

    public void setLeft(Node_HC left) {
        this.left = left;
    }

    public void setRight(Node_HC right) {
        this.right = right;
    }

    public Node_HC getLeft() {
        return left;
    }

    public Node_HC getRight() {
        return right;
    }

    public int getWeight() {
        return weight;
    }

    @Override
    public String toString() {
        return "Node_HC{" +
                "weight=" + weight +
                '}';
    }

    @Override
    public int compareTo(Node_HC o) {
        return this.weight-o.weight;//表示升序
    }

}

运行结果：

编码后：[-127, 110, 27, -49, 29]
解码后：hello world!

压缩与解压文件（赫夫曼编码）

代码实现：

package cn.dataStructureAndAlgorithm.demo.tree;

import java.io.*;
import java.util.*;

public class 赫夫曼压缩文件_HuffmanFileZipAndUnZip {
    public static void main(String[] args) {
        //测试压缩文件
        String srcFile = "E:"+ File.separator+"2020-07-07_123357.png";
        String dstFile = "E:"+File.separator+"2020-07-07_123357.zip";
        zipFile(srcFile, dstFile);
        System.out.println("压缩文件完成");

        //测试解压文件
//        String zipFile = "E:"+File.separator+"2020-07-07_123357.png";
//        String dstFile = "E:"+File.separator+"2020-07-07_123357.zip";
//        unZipFile(zipFile, dstFile);
//        System.out.println("解压成功!");
    }

    /**
     * 完成对压缩文件的解压
     *
     * @param zipFile 准备解压的文件
     * @param dstFile 将文件解压到哪个路径
     */
    public static void unZipFile(String zipFile, String dstFile) {
        //定义文件输入流
        InputStream is = null;
        //定义一个对象输入流
        ObjectInputStream ois = null;
        //定义文件的输出流
        OutputStream os = null;

        try {
            //创建文件输入流
            is = new FileInputStream(zipFile);
            //创建一个和 is 关联的对象输入流
            ois = new ObjectInputStream(is);
            //读取 byte 数组 huffmanBytes
            byte[] huffmanBytes = (byte[]) ois.readObject();
            //读取赫夫曼编码表
            Map<Byte, String> huffmanCodes = (Map<Byte, String>) ois.readObject();
            //解码
            byte[] bytes = decode(huffmanCodes, huffmanBytes); //将 bytes 数组写入到目标文件
            os = new FileOutputStream(dstFile);
            //写数据到 dstFile 文件
            os.write(bytes);
        } catch (Exception e) {
            System.out.println(e.getMessage());
        } finally {
            try {
                os.close();
                ois.close();
                is.close();
            } catch (Exception e2) {
                // TODO: handle exception
                System.out.println(e2.getMessage());
            }
        }
    }

    /**
     * 将一个文件进行压缩
     *
     * @param srcFile 你传入的希望压缩的文件的全路径
     * @param dstFile 我们压缩后将压缩文件放到哪个目录
     */
    public static void zipFile(String srcFile, String dstFile) {
        //创建输出流
        OutputStream os = null;
        ObjectOutputStream oos = null;
        //创建文件的输入流
        FileInputStream is = null;

        try {
            //创建文件的输入流
            is = new FileInputStream(srcFile);
            //创建一个和源文件大小一样的 byte[]
            byte[] b = new byte[is.available()];
            //读取文件
            is.read(b);
            //直接对源文件压缩
            byte[] huffmanBytes = huffmanZip(b);
            //创建文件的输出流, 存放压缩文件
            os = new FileOutputStream(dstFile);
            //创建一个和文件输出流关联的 ObjectOutputStream
            oos = new ObjectOutputStream(os);
            //把 赫夫曼编码后的字节数组写入压缩文件
            oos.writeObject(huffmanBytes); //我们是把
            //这里我们以对象流的方式写入 赫夫曼编码，是为了以后我们恢复源文件时使用
            //注意一定要把赫夫曼编码 写入压缩文件
            oos.writeObject(huffmanCodes);
        } catch (IOException e) {
            System.out.println(e.getMessage());
        } finally {
            try {
                is.close();
                oos.close();
                os.close();
            } catch (Exception e) {
                // TODO: handle exception
                System.out.println(e.getMessage());
            }
        }
    }

    //完成数据的解压
    //思路
    //1. 将 huffmanCodeBytes [-88, -65, -56, -65, -56, -65, -55, 77, -57, 6, -24, -14, -117, -4, -60, -90, 28]
    // 重写先转成 赫夫曼编码对应的二进制的字符串 "1010100010111..."
    //2. 赫夫曼编码对应的二进制的字符串 "1010100010111..." =》 对照 赫夫曼编码 =》 "i like like like java do you like a java"

    /**
     * 完成对压缩数据的解码
     *
     * @param huffmanCodes 赫夫曼编码表 map
     * @param huffmanBytes 赫夫曼编码得到的字节数组
     * @return 就是原来的字符串对应的数组
     */
    private static byte[] decode(Map<Byte, String> huffmanCodes, byte[] huffmanBytes) {
        //1. 先得到 huffmanBytes 对应的 二进制的字符串 ， 形式 1010100010111...
        StringBuilder stringBuilder = new StringBuilder();
        //将 byte 数组转成二进制的字符串
        for (int i = 0; i < huffmanBytes.length; i++) {
            byte b = huffmanBytes[i]; //判断是不是最后一个字节
            boolean flag = (i == huffmanBytes.length - 1);
            stringBuilder.append(byteToBitString(!flag, b));
        }

        //把字符串安装指定的赫夫曼编码进行解码 //把赫夫曼编码表进行调换，因为反向查询 a->100 100->a
        Map<String, Byte> map = new HashMap<String, Byte>();
        for (Map.Entry<Byte, String> entry : huffmanCodes.entrySet()) {
            map.put(entry.getValue(), entry.getKey());
        }

        //创建要给集合，存放 byte
        List<Byte> list = new ArrayList<>();
        //i 可以理解成就是索引,扫描 stringBuilder
        for (int i = 0; i < stringBuilder.length(); ) {
            int count = 1; // 小的计数器
            boolean flag = true;
            Byte b = null;
            while (flag) {
                //1010100010111...
                //递增的取出 key 1
                String key = stringBuilder.substring(i, i + count);//i 不动，让 count 移动，指定匹配到一个字符
                b = map.get(key);
                if (b == null) {//说明没有匹配到 count++;
                } else { //匹配到
                    flag = false;
                }
            }
            list.add(b);
            i += count;//i 直接移动到 count
        }

        //当 for 循环结束后，我们 list 中就存放了所有的字符 "i like like like java do you like a java"
        //把 list 中的数据放入到 byte[] 并返回
        byte b[] = new byte[list.size()];
        for (int i = 0; i < b.length; i++) {
            b[i] = list.get(i);
        }
        return b;
    }

    /**
     * 将一个 byte 转成一个二进制的字符串, 如果看不懂，可以参考我讲的 Java 基础 二进制的原码，反码，
     * 补码
     *
     * @param flag 标志是否需要补高位如果是 true ，表示需要补高位，如果是 false 表示不补, 如果是最后一 个字节，无需补高位
     * @param b    传入的 byte
     * @return 是该 b 对应的二进制的字符串，(注意是按补码返回)
     */
    private static String byteToBitString(boolean flag, byte b) {
        //使用变量保存 b
        int temp = b;//将 b 转成 int
        // 如果是正数我们还存在补高位
        if (flag) {
            temp |= 256; //按位与 256 1 0000 0000 | 0000 0001 =>1 0000 0001
        }

        String str = Integer.toBinaryString(temp); //返回的是 temp 对应的二进制的补码
        if (flag) {
            return str.substring(str.length() - 8);
        } else {
            return str;
        }
    }

    /**
     * @param bytes 原始的字符串对应的字节数组
     * @return 是经过 赫夫曼编码处理后的字节数组(压缩后的数组)
     */
    private static byte[] huffmanZip(byte[] bytes) {
        List<Node_HF> Node_HFs = getNode_HFs(bytes);
        //根据 Node_HFs 创建的赫夫曼树
        Node_HF huffmanTreeRoot = createHuffmanTree(Node_HFs);
        //对应的赫夫曼编码(根据 赫夫曼树)
        Map<Byte, String> huffmanCodes = getCodes(huffmanTreeRoot);
        //根据生成的赫夫曼编码，压缩得到压缩后的赫夫曼编码字节数组
        byte[] huffmanCodeBytes = zip(bytes, huffmanCodes);
        return huffmanCodeBytes;
    }

    /**
     * @param bytes        这时原始的字符串对应的 byte[]
     * @param huffmanCodes 生成的赫夫曼编码 map
     * @return 返回赫夫曼编码处理后的 byte[]
     */
    private static byte[] zip(byte[] bytes, Map<Byte, String> huffmanCodes) {
        /**
         * 举例: String content = "i like like like java do you like a java"; =》 byte[] contentBytes = content.getBytes();
         * *返回的是 字符串 "1010100010111111110010001011111111001000101111111100100101001101110001110000011011101000111100101000 101111111100110001001010011011100"
         *  => 对应的 byte[] huffmanCodeBytes ，即 8 位对应一个 byte,放入到 huffmanCodeBytes
         * huffmanCodeBytes[0] = 10101000(补码) => byte [推导 10101000=> 10101000 - 1 => 10100111(反码)=> 11011000= -88 ]
         * huffmanCodeBytes[1] = -88
         */
        //1.利用 huffmanCodes 将 bytes 转成 赫夫曼编码对应的字符串
        StringBuilder stringBuilder = new StringBuilder();
        //遍历 bytes 数组
        for (byte b : bytes) {
            stringBuilder.append(huffmanCodes.get(b));
        }
        //System.out.println("测试 stringBuilder~~~=" + stringBuilder.toString());
        //将 "1010100010111111110..." 转成 byte[]
        //统计返回 byte[] huffmanCodeBytes 长度
        //一句话 int len = (stringBuilder.length() + 7) / 8;
        int len;
        if (stringBuilder.length() % 8 == 0) {
            len = stringBuilder.length() / 8;
        } else {
            len = stringBuilder.length() / 8 + 1;
        }
        //创建 存储压缩后的 byte 数组
        byte[] huffmanCodeBytes = new byte[len];
        int index = 0;//记录是第几个 byte
        for (int i = 0; i < stringBuilder.length(); i += 8) { //因为是每 8 位对应一个 byte,所以步长 +8
            String strByte;
            if (i + 8 > stringBuilder.length()) {//不够 8 位
                strByte = stringBuilder.substring(i);
            } else {
                strByte = stringBuilder.substring(i, i + 8);
            }
            //将 strByte 转成一个 byte,放入到 huffmanCodeBytes
            huffmanCodeBytes[index] = (byte) Integer.parseInt(strByte, 2);
            index++;
        }
        return huffmanCodeBytes;
    }

    //生成赫夫曼树对应的赫夫曼编码
    //思路:
    //1. 将赫夫曼编码表存放在 Map<Byte,String> 形式
    // 生成的赫夫曼编码表{32=01, 97=100, 100=11000, 117=11001, 101=1110, 118=11011, 105=101,121=11010, 106=0010, 107=1111, 108=000, 111=0011}
    static Map<Byte, String> huffmanCodes = new HashMap<Byte, String>();
    //2. 在生成赫夫曼编码表示，需要去拼接路径, 定义一个 StringBuilder 存储某个叶子结点的路径
    static StringBuilder stringBuilder = new StringBuilder();

    /**
     * @param root
     * @return
     */
    private static Map<Byte, String> getCodes(Node_HF root) {
        if (root == null) {
            return null;
        }
        //处理 root 的左子树
        getCodes(root.left, "0", stringBuilder);
        //处理 root 的右子树
        getCodes(root.right, "1", stringBuilder);
        return huffmanCodes;
    }

    /**
     * 功能:将传入的 Node_HF 结点的所有叶子结点的赫夫曼编码得到，并放入到 huffmanCodes 集合
     *
     * @param Node_HF          传入结点
     * @param code          路径: 左子结点是 0, 右子结点 1
     * @param stringBuilder 用于拼接路径
     */
    private static void getCodes(Node_HF Node_HF, String code, StringBuilder stringBuilder) {
        StringBuilder stringBuilder2 = new StringBuilder(stringBuilder);
        //将 code 加入到 stringBuilder2
        stringBuilder2.append(code);
        if (Node_HF != null) { //如果 Node_HF == null 不处理
            //判断当前 Node_HF 是叶子结点还是非叶子结点
            if (Node_HF.data == null) { //非叶子结点
                //递归处理
                //向左递归
                getCodes(Node_HF.left, "0", stringBuilder2); //向右递归
                getCodes(Node_HF.right, "1", stringBuilder2);
            } else { //说明是一个叶子结点
                // 就表示找到某个叶子结点的最后
                huffmanCodes.put(Node_HF.data, stringBuilder2.toString());
            }
        }
    }

    //前序遍历的方法
    private static void preOrder(Node_HF root) {
        if (root != null) {
            root.preOrder();
        } else {
            System.out.println("赫夫曼树为空");
        }
    }

    /**
     * @param bytes 接收字节数组
     * @return 返回的就是 List 形式 [Node_HF[date=97 ,weight = 5], Node_HF[]date=32,weight = 9]......]
     */
    private static List<Node_HF> getNode_HFs(byte[] bytes) {
        //1 创建一个 ArrayList
        ArrayList<Node_HF> Node_HFs = new ArrayList<Node_HF>();
        //遍历 bytes , 统计 每一个 byte 出现的次数->map[key,value]
        Map<Byte, Integer> counts = new HashMap<>();
        for (byte b : bytes) {
            Integer count = counts.get(b);
            if (count == null) { // Map 还没有这个字符数据,第一次
                counts.put(b, 1);
            } else {
                counts.put(b, count + 1);
            }
        }
        //把每一个键值对转成一个 Node_HF 对象，并加入到 Node_HFs 集合 //遍历 map
        for (Map.Entry<Byte, Integer> entry : counts.entrySet()) {
            Node_HFs.add(new Node_HF(entry.getKey(), entry.getValue()));
        }
        return Node_HFs;
    }

    //可以通过 List 创建对应的赫夫曼树
    private static Node_HF createHuffmanTree(List<Node_HF> Node_HFs) {
        while (Node_HFs.size() > 1) {
            //排序, 从小到大
            Collections.sort(Node_HFs);
            //取出第一颗最小的二叉树
            Node_HF leftNode_HF = Node_HFs.get(0);
            //取出第二颗最小的二叉树
            Node_HF rightNode_HF = Node_HFs.get(1);
            //创建一颗新的二叉树,它的根节点 没有 data, 只有权值
            Node_HF parent = new Node_HF(null, leftNode_HF.weight + rightNode_HF.weight);
            parent.left = leftNode_HF;
            parent.right = rightNode_HF;
            //将已经处理的两颗二叉树从 Node_HFs 删除
            Node_HFs.remove(leftNode_HF);
            Node_HFs.remove(rightNode_HF);
            //将新的二叉树，加入到 Node_HFs
            Node_HFs.add(parent);
        }
        //Node_HFs 最后的结点，就是赫夫曼树的根结点
        return Node_HFs.get(0);
    }
}

//创建 Node_HF ,待数据和权值
class Node_HF implements Comparable<Node_HF> {
    Byte data; // 存放数据(字符)本身，比如'a' => 97 ' ' => 32
    int weight; //权值, 表示字符出现的次数
    Node_HF left;//
    Node_HF right;

    public Node_HF(Byte data, int weight) {
        this.data = data;
        this.weight = weight;
    }

    @Override
    public int compareTo(Node_HF o) {
        // 从小到大排序
        return this.weight - o.weight;
    }

    public String toString() {
        return "Node_HF [data = " + data + " weight=" + weight + "]";
    }

    //前序遍历
    public void preOrder() {
        System.out.println(this);
        if (this.left != null) {
            this.left.preOrder();
        }
        if (this.right != null) {
            this.right.preOrder();
        }
    }
}

有关树结构的其他内容，见下各链接

【树结构_二叉树基础，顺序存储二叉树，线索化二叉树】

【树结构_堆排序】

【树结构_BST树（二叉排序树）】

【树结构_AVL树（平衡二叉树），红黑树与B系列树简介】

【数据结构与算法整理总结目录：＞】<-- 宝藏在此（doge）

泥煤少年的博客

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
树结构_赫夫曼树，赫夫曼编码，文件解压缩

目录【赫夫曼树】赫夫曼编码压缩与解压文件（赫夫曼编码）【赫夫曼树】赫夫曼树（最优二叉树），也有其他译名，它的本质就是所有叶子结点的带权路径长度之和最小的二叉树，所有叶子结点的带权路径长度又叫WPL（weighted path length）。WPL=所有叶子结点权值*路径长度之和，如下3种树，中间这个树的排列方式，使得wpl最小，所以它属于赫夫曼树。赫夫曼树的特点就在于：结点权值越大的与根节点离得越近如何创建一个赫夫曼树？第一步：将权值数组中的数据包装入事先创建好的结点.
复制链接

扫一扫