尚硅谷-韩老师学习——哈夫曼编码及文件的压缩和解压缩操作

最新推荐文章于 2023-01-10 10:21:11 发布
无敌小胖子.com
最新推荐文章于 2023-01-10 10:21:11 发布
阅读量361
点赞数
分类专栏：网络工程文章标签： java-ee 数据结构
本文链接：https://blog.csdn.net/qq_36058264/article/details/119420751
版权
网络工程专栏收录该内容
8 篇文章 0 订阅
订阅专栏
package HuffmanTree.hafumanCode;

import HuffmanTree.HuffmanTree;

import java.awt.event.FocusEvent;
import java.io.*;
import java.lang.annotation.Retention;
import java.util.*;

/**
 * 哈夫曼编码
 * 1) 赫夫曼编码也翻译为 哈夫曼编码(Huffman Coding)，又称霍夫曼编码，是一种编码方式, 属于一种程序算法
 * 2) 赫夫曼编码是赫哈夫曼树在电讯通信中的经典的应用之一。
 * 3) 赫夫曼编码广泛地用于数据文件压缩。其压缩率通常在 20%～90%之间
 * 4) 赫夫曼码是可变字长编码(VLC)的一种。Huffman 于 1952 年提出一种编码方法，称之为最佳编码
 *
 * @Author: HML
 * @Date: 2021/7/31  上午 10:57
 * @Version 1.0
 */
public class HuffmanCode {

    public static void main(String[] args) throws IOException {


//        String content = "i like like like java do you like a java";
//        //转换城字节数组
//        byte[] contentBytes = content.getBytes();
//        System.out.println(Arrays.toString(contentBytes));
//        System.out.println(contentBytes.length);
//        //将字节数组转换成节点信息
//        List<NodeCode> nodes = getNodes(contentBytes);
//        System.out.println(nodes);
//        //构建哈夫曼树
//        NodeCode huffmanTreeRoot = createHuffmanTree(nodes);
//        huffmanTreeRoot.preOrder();
//        //生成哈夫曼编码
//        Map<Byte, String> huffmanCodes = getCodes(huffmanTreeRoot);
//        System.out.println("生成的哈夫曼编码="+huffmanCodes);
//        //将字符串生成对应的编码数据。相当于压缩，利用哈夫曼编码实现压缩，原来有40长度，
//        //进过哈夫曼编码压缩后长度还有13
//        byte[] huffmanCodeBytes = zip(contentBytes,huffmanCodes);
//        System.out.println(Arrays.toString(huffmanCodeBytes));
//        //数据解压过程
//        byte[] bytes = decode(huffmanCodes, huffmanCodeBytes);
//        System.out.println(new String(bytes));

//        String srcFile = "F://test.jpg";
//        System.out.println(srcFile);
//        String dstFile = "F://test.zip";
//        zipFile(srcFile,dstFile);
        String zipFile = "F://test.zip";
        String dstFile = "D://test.jpg";
        unZipFile(zipFile, dstFile);


    }


    //我们学习了通过赫夫曼编码对一个字符串进行编码和解码, 下面我们来完成对文件的压缩和解压，
    //具体要求： 给你一个图片文件，要求对其进行无损压缩, 看看压缩效果如何。
    //1) 思路：读取文件-> 得到赫夫曼编码表 -> 完成压缩


    public static void zipFile(String srcFile, String dstFile) {
        //创建输入流
        FileOutputStream os = null;
        ObjectOutputStream oos = null;//创建输出流对象

        //创建文件的输入流
        FileInputStream is = null;
        try {

            //创建文件的输入流
            is = new FileInputStream(srcFile);
            //创建一个和源文件一样大小的byte[]
            byte[] bytes = new byte[is.available()];
            //读取文件
            is.read(bytes);
            //直接对源文件进行压缩
            byte[] huffmanBytes = huffmanZip(bytes);
            //创建文件的输出流，存放压缩文件
            os = new FileOutputStream(dstFile);
            //创建一个和文件输出流关联的输出流对象
            oos = new ObjectOutputStream(os);
            //把哈弗曼编码后的字节数组写入压缩文件
            oos.writeObject(huffmanBytes);
            //这里我们以对象流的方式写入 赫夫曼编码，是为了以后我们恢复源文件时使用
            //注意一定要把赫夫曼编码 写入压缩文件
            oos.writeObject(huffmanCodes);
        } catch (Exception e) {
            System.out.println(e.getMessage());
        } finally {
            try {
                is.close();
                oos.close();
                os.close();
            } catch (Exception e) {
                String message = e.getMessage();
                System.out.println(message);
            }
        }
    }

    //文件解压
    //思路：读取压缩文件（数据和哈夫曼编码表），重新恢复成原来的文件（完成解压）

    /**
     * @param zipFile 解压文件名
     * @param dstFile 解压到那个路径
     */
    private static void unZipFile(String zipFile, String dstFile) throws IOException {

        //定义文件的输入流
        InputStream is = null;
        //定义一个对象的输入流
        ObjectInputStream ois = null;
        //定义文件的输出流
        OutputStream os = null;
        try {
            //创建文件的输入流
            is = new FileInputStream(zipFile);
            //创建一个和is关联的对象输入流
            ois = new ObjectInputStream(is);
            //读取byte数组
            byte[] huffmanBytes = (byte[]) ois.readObject();
            //读取哈夫曼编码表
            Map<Byte, String> huffmanCodes = (Map<Byte, String>) ois.readObject();
            //解码
            byte[] decode = decode(huffmanCodes, huffmanBytes);
            //将byte数组写出到目标文件
            os = new FileOutputStream(dstFile);
            //写入数据到dstFile
            os.write(decode);
        } catch (Exception e) {
            e.printStackTrace();
        } finally {
            os.close();
            ois.close();
            is.close();
        }

    }


    //将前面的方法封装起来

    /**
     * bytes 原始的字符串对应的字节数组
     *
     * @param bytes
     * @return 是经过 赫夫曼编码处理后的字节数组(压缩后的数组)
     */
    private static byte[] huffmanZip(byte[] bytes) {
        List<NodeCode> nodes = getNodes(bytes);
        //创建哈夫曼树
        NodeCode huffmanTree = createHuffmanTree(nodes);
        //得到哈夫曼编码
        Map<Byte, String> codes = getCodes(huffmanTree);
        //根据哈夫曼编码压缩后的哈夫曼字节数组
        byte[] zip = zip(bytes, codes);
        return zip;
    }


    //生成哈夫曼树的哈夫曼编码
    /**
     * 思路：
     * 1. 将哈夫曼编码表存放在Map<Byte,String>形式
     * 生 成 的 赫 夫 曼 编 码 表 {32=01, 97=100, 100=11000, 117=11001,
     * 101=1110, 118=11011, 105=101, 121=11010, 106=0010, 107=1111, 108=000, 111=0011}
     * 2. 在生成哈夫曼编码的同时，需要去拼接路径，定义StringBuilder存储某个叶子节点的路径
     */
    static Map<Byte, String> huffmanCodes = new HashMap<Byte, String>();
    //2. 在生成赫夫曼编码表示，需要去拼接路径, 定义一个 StringBuilder 存储某个叶子结点的路径
    static StringBuilder stringBuilder = new StringBuilder();

    //为了调用方便，我们从写getCodes()方法
    private static Map<Byte, String> getCodes(NodeCode root) {
        if (root == null) {
            return null;
        }
        //处理root的左子树
        getCodes(root.left, "0", stringBuilder);
        //处理root的右子树
        getCodes(root.right, "1", stringBuilder);
        return huffmanCodes;
    }

    /**
     * 功能：将传入的node节点的所有叶子节点的哈夫曼编码得到，并放入哈夫曼code中
     *
     * @param node          传入节点
     * @param code          路径 左边：0 右边：1
     * @param stringBuilder 用于拼接路径
     */
    private static void getCodes(NodeCode node, String code, StringBuilder stringBuilder) {
        StringBuilder st = new StringBuilder(stringBuilder);
        //将code加入st
        st.append(code);
        if (node != null) {
            if (node.data == null) {//非叶子节点,叶子节点的data域是存在值的
                //递归处理
                //向左递归
                getCodes(node.left, "0", st);
                //向右递归
                getCodes(node.right, "1", st);
            } else {
                //说明找到一个叶子节点
                //就表示找到某个叶子节点的最后
                huffmanCodes.put(node.data, st.toString());
            }
        }
    }


    public static List<NodeCode> getNodes(byte[] bytes) {
        //1. 创建一个arraylist
        ArrayList<NodeCode> nodeCodes = new ArrayList<>();
        //2. 遍历byte中每个字符出现的次数,使用map来进行存储
        HashMap<Byte, Integer> map = new HashMap<>();
        for (byte by : bytes) {
            Integer count = map.get(by);
            if (count == null) {
                //说明map中没有这个字符，我们将其加入到map中
                map.put(by, 1);
            } else {
                //说明这个字符已经存在，我们让其进行总数加1
                map.put(by, count + 1);
            }
        }

        //将把每一个键值对转换成一个node对象，并将其加入到nodes集合中
        //遍历map,这里是遍历map使用entrySet方法，我怎么这么笨？？？
        for (Map.Entry<Byte, Integer> entry : map.entrySet()) {
            //使用new关键字是没都去创建一个新的对象，值就不会被覆盖了
            nodeCodes.add(new NodeCode(entry.getKey(), entry.getValue()));
        }
        return nodeCodes;
    }


    //使用赫夫曼编码来生成赫夫曼编码数据
    //编写一个方法,通过生成的哈夫曼编码表，返回一个哈夫曼编码压缩后的byte[],相当于生成了利用哈夫曼编码的字节数组

    /**
     * 编写一个方法，将字符串对应的 byte[] 数组，通过生成的赫夫曼编码表，，这里相当于进行了压缩
     * 返回一个赫夫曼编码 压缩后的 byte[]
     *
     * @param bytes        原始字符串对应的byte[]
     * @param huffmanCodes 返回哈夫曼处理过后的byte[]
     * @return
     */
    private static byte[] zip(byte[] bytes, Map<Byte, String> huffmanCodes) {
        //利用huffmanCode将bytes转成荷夫曼编码对应的字符串
        StringBuilder stringBuilder = new StringBuilder();
        //遍历byte数组，这里我们相当于一个拼接
        for (byte b : bytes) {
//            System.out.println("b="+b);
//            System.out.println("get(b)="+huffmanCodes.get(b));
            stringBuilder.append(huffmanCodes.get(b));
            //System.out.println(stringBuilder.toString());
        }
        int length = 0;//求得length，为创建后面的byte数组准备
        if (stringBuilder.length() % 8 == 0) {
            length = stringBuilder.length() / 8;
        } else {
            length = stringBuilder.length() / 8 + 1;
        }

        //创建压缩后的byte数组
        byte[] huffmanCodeBytes = new byte[length];
        int index = 0;
        for (int i = 0; i < stringBuilder.length(); i += 8) {//因为每8位对应一个byte，所以步长是8
            String strByte;
            if (i + 8 > stringBuilder.length()) {
                //不够8位,我们直接返回返回每一位即可
                strByte = stringBuilder.substring(i);
            } else {
                strByte = stringBuilder.substring(i, i + 8);
            }
            //将二进制值字符转成十进制值，进一步缩小
            huffmanCodeBytes[index] = (byte) Integer.parseInt(strByte, 2);//输出成二进制的数
            index++;
        }
        return huffmanCodeBytes;
    }

    /**
     * 使用哈夫曼编码来解码数据
     * 1. 前面我们得到了哈夫曼编码和对应的编码byte[]
     * 2. 现在使用哈夫曼编码来解码，，将经过编码后的字符串解码成原来的字符串
     * * 将一个 byte 转成一个二进制的字符串,
     *
     */
    /**
     * 将一个 byte 转成一个二进制的字符串,
     *
     * @param flag 是否需要补充高位的需要标志 ，true：要补，false：不要，如果是最后一个字节，无需补高位
     * @param b    对应的二进制字符串
     * @return
     */
    public static String byteToString(boolean flag, byte b) {
        //使用变量来保存b
        int tmp = b;//将b转成int
        //如果是正数，我们还存在补高位
        if (flag) {
            tmp |= 256;  //按位与256吗，2^8次，每8位取
        }
        String str = Integer.toBinaryString(tmp);//tmp对应的二进制解码
        if (flag) {
            return str.substring(str.length() - 8);
        } else {
            return str;
        }
    }


    /**
     * //完成对哈夫曼树的解码
     *
     * @param huffmanCodes 哈夫曼编码表  map
     * @param huffmanBytes 经过哈夫曼编码得到后的字节数组[-88,....]
     * @return 就是原来字符串对应的数组
     */
    public static byte[] decode(Map<Byte, String> huffmanCodes, byte[] huffmanBytes) {
        //1。先得到huffmanByte对应的二进制字符串，形式1010100011.。。
        StringBuilder stringBuilder = new StringBuilder();
        //将byte数组转成二进制的字符串
        for (int i = 0; i < huffmanBytes.length; i++) {
            byte b = huffmanBytes[i];
            //判断是不是最后一个字节。这里是与前面的bytetostring里面的方法对应，我们判断如果是最后一个字符，我们只需将其拼接，无需将其进行补全。
            boolean flag = (i == huffmanBytes.length - 1);//为真，即不需要进行补位
            stringBuilder.append(byteToString(!flag, b));//!flag取反
        }
        System.out.println(stringBuilder.toString());
        //把字符串按照指定的哈夫曼编码进行解码
        //把哈弗曼编码进行调换，因为反向查询  a->97 = 100 -> a
        Map<String, Byte> map = new HashMap<>();
        //哈夫曼编码进行调换
        for (Map.Entry<Byte, String> entry : huffmanCodes.entrySet()) {
            map.put(entry.getValue(), entry.getKey());
        }
        System.out.println(map + "map");
        //创建要给集合.存放byte
        ArrayList<Byte> list = new ArrayList<>();
        //扫描stringbuilder，每一位一位的进行扫描，这里不能进行自加1，原因：i+count，
        //遍历的时候，每次走count，直到匹配到哈夫曼对应的字母时才i+count，此时，i移动i+count，不是i++
        for (int i = 0; i < stringBuilder.length(); ) {
            int count = 1;//小的计数器
            boolean flag = true;
            Byte b = null;

            while (flag) {
                //取出一个1或者0，因为是二进制吗，啊
                String key = stringBuilder.substring(i, i + count);//i不动，count进行后移，指导匹配到一个字符
                b = map.get(key);
                if (b == null) {
                    //说明没有匹配到
                    count++;
                } else {
                    //匹配到
                    flag = false;
                }
            }
            list.add(b);
            i += count;//i直接移动到count
        }
        //for循环结束后，list中就放入了所有的字符，，将list中的数据放入byte[]并返回‘
        byte[] b = new byte[list.size()];
        for (int i = 0; i < list.size(); i++) {
            b[i] = list.get(i);
        }
        return b;
    }


    //2. 通过list来创建哈夫曼树
    public static NodeCode createHuffmanTree(List<NodeCode> nodeCodes) {
        while (nodeCodes.size() > 1) {
            //先进性一轮排序，在进行处理
            Collections.sort(nodeCodes);
            //取出最小的二叉树
            NodeCode leftNode = nodeCodes.get(0);
            //取出次小的二叉树
            NodeCode rightNode = nodeCodes.get(1);

            //组成一颗新的二叉树,节点本身的数据为空
            NodeCode parent = new NodeCode(null, leftNode.weight + rightNode.weight);
            //将父节点的左子节点指向左节点
            //将父节点的右子节点指向右节点，然后清除原有的节点信息
            parent.left = leftNode;
            parent.right = rightNode;
            nodeCodes.remove(leftNode);
            nodeCodes.remove(rightNode);
            //将新的parent加入到list中，方便进行后续计算迭代
            nodeCodes.add(parent);
        }
        return nodeCodes.get(0);
    }

    //前序遍历
    public static void preOrder(NodeCode root) {
        if (root != null) {
            root.preOrder();
        } else {
            System.out.println("error");
        }
    }

}

class NodeCode implements Comparable<NodeCode> {

    Byte data;//存放数据本身
    int weight;//节点的权值,这里表示字符出现的次数
    NodeCode left;
    NodeCode right;

    public NodeCode(Byte data, int weight) {
        this.data = data;
        this.weight = weight;
    }

    @Override
    public String toString() {
        return "NodeCode{" +
                "data=" + data +
                ", weight=" + weight +
                '}';
    }

    //编写前序遍历的方法
    public void preOrder() {
        System.out.println(this);
        if (this.left != null) {
            this.left.preOrder();
        }
        if (this.right != null) {
            this.right.preOrder();
        }
    }

    //从小到大进行排序
    @Override
    public int compareTo(NodeCode o) {
        return this.weight - o.weight;
    }
}
无敌小胖子.com
关注
0
点赞
踩
1

收藏

觉得还不错? 一键收藏
打赏
1
评论
尚硅谷-韩老师学习——哈夫曼编码及文件的压缩和解压缩操作

package HuffmanTree.hafumanCode;import HuffmanTree.HuffmanTree;import java.awt.event.FocusEvent;import java.io.*;import java.lang.annotation.Retention;import java.util.*;/** * 哈夫曼编码 * 1) 赫夫曼编码也翻译为哈夫曼编码(Huffman Coding)，又称霍夫曼编码，是一种编码方式, 属于一种程序算法
复制链接

扫一扫