Java--赫夫曼编码

最新推荐文章于 2024-09-13 11:21:27 发布
努力呀kk
最新推荐文章于 2024-09-13 11:21:27 发布
阅读量619
点赞数
文章标签： java 赫夫曼编码
本文链接：https://blog.csdn.net/shaunan/article/details/103318702
版权
1.原理

在这里插入图片描述
2.变长编码

3.赫夫曼编码

1.数据压缩，创建赫夫曼树
2，生成赫夫曼编码和赫夫曼编码后的数据

3，数据解压，使用赫夫曼编码解码

4，文件压缩‘
思路：读取文件->得到赫夫曼编码表-》完成压缩
5，文件解压（文件恢复）
思路：读取压缩文件（数据和赫夫曼编码表）-》完成解压（文件恢复）
import java.io.*;
import java.util.*;

public class HuffmanCode {
    public static void main(String[] args) {

        /*//测试压缩文件
        String srcFile = "d://src.bmp";
        String dstFile = "d://dst.zip";

        zipFile(srcFile, dstFile);
        System.out.println("压缩文件ok~");*/

        //测试解压文件
        String zipFile = "d://dst.zip";
        String dstFile= "d://src2.bmp";
        unZipFile(zipFile,dstFile);
        System.out.println("解压成功");

       /* String content = "i like like like java do you like a java";
       byte[] contentBytes = content.getBytes();
        System.out.println(contentBytes.length);

        byte[] huffmanCodesBytes= huffmanZip(contentBytes);
        System.out.println("压缩后的结果是："+Arrays.toString(huffmanCodesBytes) + "长度="+huffmanCodesBytes.length);

        //测试byteToBitString
        //System.out.println(byteToBitString(true,(byte)1));
        byte[] sourceBytes = decode(huffmanCodes,huffmanCodesBytes);
        System.out.println("原来的字符串=" + new String(sourceBytes));
*/

         /*List<Node> nodes = getNodes(contentBytes);
        System.out.println("nodes=" + nodes);

        //测试创建的二叉树
        System.out.println("赫夫曼树");
        Node huffmanTreeRoot = creatHuffmanTree(nodes);
        System.out.println("前序遍历");
        huffmanTreeRoot.preOrder();

        //测试是否生成了赫夫曼编码
        Map<Byte, String> huffmanCodes = getCodes(huffmanTreeRoot);
        // getCodes(huffmanTreeRoot,"",stingBuilder);
        System.out.println("生成的赫夫曼编码表=" + huffmanCodes);

        //测试
        byte[] huffmanCodeBytes = zip(contentBytes, huffmanCodes);
        System.out.println("huffmanCodeBytes="+ Arrays.toString(huffmanCodeBytes));

        //发送huffmanCodeBytes数组*/

    }
    //编写一个方法，完成对压缩文件的解压

    /**
     *
     * @param zipFile 准备解压的文件
     * @param dstFile 将文件解压到哪个路径
     */
    public static void unZipFile(String zipFile , String dstFile){
        //定义文件输入流
        InputStream is = null;
        //定义一个对象输入流
        ObjectInputStream ois = null;
        //定义文件的输出流
        OutputStream os = null;
        try{
            //创建文件输入流
            is = new FileInputStream(zipFile);
            //创建一个和is关联的对象输入流
            ois = new ObjectInputStream(is);
            //读取byte数组，huffmanBytes
             byte[] huffmanBytes = (byte[]) ois.readObject();
             //读取赫夫曼编码表
            Map<Byte,String> huffmanCodes = (Map<Byte,String>)ois.readObject();

            //解码
            byte[] bytes = decode(huffmanCodes,huffmanBytes);
            //将bytes数组写入到目标文件
            os = new FileOutputStream(dstFile);
            //写数据到dstFile文件
            os.write(bytes);
        }catch (Exception e){
            System.out.println(e.getMessage());
        }finally {
            try {
                os.close();
                ois.close();
                is.close();
            }catch (Exception e2){
                System.out.println(e2.getMessage());
            }

        }
    }

    //编写方法，将一个文件进行压缩
    /**
     *
     * @param srcFile 你传入的希望压缩的文件的全路径
     * @param destFile 我们压缩后将压缩文件放到哪个目录
     */
    public static void zipFile(String srcFile,String destFile){
        //创建输出流
        OutputStream os = null;
        ObjectOutputStream oos = null;
        //创建文件的输入流
        FileInputStream is = null;
        try {
           is =new FileInputStream(srcFile);

            //创建一个和源文件大小一样的byte[]
            byte[] b = new byte[is.available()];
            //读取文件
            is .read(b);
            //获取到文件对应的赫夫曼编码表
            //直接对源文件进行压缩
            byte[] huffmanBytes = huffmanZip(b);
            //创建文件的输出流，存放压缩文件
            os = new FileOutputStream(destFile);
            //创建一个和文件输出流关联的ObjectOutputStream
            oos = new ObjectOutputStream(os);
            //把赫夫曼编码后的自己数组写入压缩文件
            oos.writeObject(huffmanBytes);
            //这里以对象流的方式写入赫夫曼编码，是为了以后我们恢复源文件时使用
            //注意一定要吧赫夫曼编码写入压缩文件
            oos.writeObject(huffmanCodes);
        }catch (Exception e){
            System.out.println(e.getMessage());
        }finally {
            try {
                is.close();
                oos.close();
                os.close();
            }catch (Exception e){
                System.out.println(e.getMessage());
            }
        }
    }
    //完成数据的解压
    //思路：1，[-88, -65, -56, -65, -56, -65, -55, 77, -57, 6, -24, -14, -117, -4, -60, -90, 28]重新先转成赫夫曼编码对应的二进制的字符串
    //2.赫夫曼编码对应的二进制的字符串”101010000...=》对照赫夫曼编码=》 "i like like like java do you like a java"

    //编写一个方法，完成对压缩数据的解码

    /**
     *
     * @param huffmanCodes 赫夫曼编码表map
     * * @param huffmanBytes 赫夫曼编码得到的字节数组
     * @return 就是原来的字符串对应的数组
     */
    private static byte[] decode(Map<Byte,String> huffmanCodes, byte[] huffmanBytes){
        //1，先得到huffmanBytes对应的二进制的字符串，形式10101000...
        StringBuilder stringBuilder = new StringBuilder();
        //将byte数组转成二进制的字符串
        for (int i = 0; i < huffmanBytes.length; i++) {
            byte b= huffmanBytes[i];
            //判断是不是最后一个字节
            boolean flag = (i== huffmanBytes.length -1);
           stringBuilder.append(byteToBitString(!flag,b)) ;
        }
        //System.out.println("赫夫曼字节数组对应的二进制字符串="+stringBuilder.toString());
       // return null;
        //把字符串安装指定的赫夫曼编码进行解码
        //把赫夫曼编码表进行调换，因为反向查询 a->100 100->a
        HashMap<String, Byte> map = new HashMap<String,Byte>();
        for (Map.Entry<Byte,String> entry: huffmanCodes.entrySet()){
            map.put(entry.getValue(),entry.getKey());
        }
        //创建要给集合，存放byte
        List<Byte> list= new ArrayList<>();
        for (int i = 0; i < stringBuilder.length(); ) {
            int count =1;
            boolean flag = true;
            Byte b = null;

            while (flag){
                //取出一个‘0’‘1’
                String key = stringBuilder.substring(i,i+count);//i不动，让count移动，指定匹配到一个字符
                b = map.get(key);
                if (b == null){
                    count++;
                }else{
                    //匹配到Map<Byte,String>
                    flag = false;
                }
            }
            list.add(b);
            i+= count;//i直接移动到count
        }
        //当for循环结束后，我们list中就存放了所有的字符
        //把list中的数据放入到byte[]并返回
        byte b[] = new byte[list.size()];
        for (int i=0;i<b.length;i++){
            b[i] = list.get(i);
        }
        return b;
    }

    /**
     * 将一个byte转成一个二进制的字符串
      * @param b 传入的byte
     * @param flag  标志是否需要补高位如果是true，表示需要补高位，如果是false表示不补
     * @return 是该b对应的二进制的字符串（注意是按补码返回
     */
    private static String byteToBitString(boolean flag, byte b){
        //使用变量保存b
        int temp = b;//将b转成int
        //如果是正数还存在补高位
        if (flag) {
            temp |= 256;//按位与256 1 0000 0000 | 0000 0001 =>1 0000 0001
        }
        String str = Integer.toBinaryString(temp);//返回的是temp对应的二进制的补码
        if (flag) {
            return str.substring(str.length()-8);
        }else {

            return str;
        }
    }

    //使用一个方法，将前面的方法封装起来，便于调用

    /**
     *
     * @param bytes 原始的字符串对应的字节数组
     * @return 是经过赫夫曼编码处理后的字节数组，压缩后的数组
     */
    private static byte[] huffmanZip(byte[] bytes){
        List<Node> nodes = getNodes(bytes);
        //根据nodes创建赫夫曼树
        Node huffmanTreeRoot = creatHuffmanTree(nodes);
        //根据赫夫曼树生成赫夫曼编码
        Map<Byte, String> huffmanCodes = getCodes(huffmanTreeRoot);
        //根据生成的赫夫曼编码压缩得到压缩后的赫夫曼编码字节数组
        byte[] huffmanCodeBytes = zip(bytes, huffmanCodes);
        return huffmanCodeBytes;
    }

    //编写一个方法，将字符串对应的byte[]数组，通过生成的赫夫曼编码表，返回一个赫夫曼编码压缩后的byte[]

    /**
     * @param bytes        这时原始的字符串对应的byte[]
     * @param huffmanCodes 生成的赫夫曼编码map
     * @return 返回赫夫曼编码处理后的byte[]
     * 举例：String conthet= "i like like like java do you like a java";=> byte[] contentBytes = content.getBytes();
     * 返回的是字符串
     * =》对应的byte[]huffmanCodeBytes,即8位对应一个byte，放入到huffmanCodeBytes
     * huffmanCodeBytes[0]=10101000（补码）=>byte【推导10101000=》10101000-1=》10100111（反码）=》11011000（原码）】
     */
    //
    private static byte[] zip(byte[] bytes, Map<Byte, String> huffmanCodes) {
        //1.利用huffmanCodes将bytes转成赫夫曼编码对应的字符串
        StringBuilder stringBuilder = new StringBuilder();
        //遍历bytes数组
        for (byte b : bytes) {
            stringBuilder.append(huffmanCodes.get(b));
        }
        System.out.println("测试stringBuilder~~=" + stringBuilder.toString());

        //将字符串转成byte[]
        //统计返回byte[] huffmanCodeBytes长度
        //int len= (StringBuilder.length()+7)/8
        int len;
        if (stringBuilder.length() % 8 == 0){
            len = stringBuilder.length() / 8;
        }else {
            len = stringBuilder.length() / 8 + 1;
        }
        //创建存储压缩后的byte数组
        byte[] huffmanCodeBytes= new byte[len];
        int index =0;//记录是第几个byte
        for (int i = 0; i < stringBuilder.length(); i += 8) {//因为每8位对应一个byte，所以步长+8
            String strByte;
            if ( i+8 > stringBuilder.length()){//不够8位
                strByte = stringBuilder.substring(i);
            }else {
                strByte = stringBuilder.substring(i, i + 8);
            }
            //将strByte转成一个byte，放入到huffmanCodeByte
            huffmanCodeBytes[index] = (byte)Integer.parseInt(strByte,2);
            index++;
        }
        return huffmanCodeBytes;
    }

    //生成赫夫曼树对应的赫夫曼编码
    //思路：1，将赫夫曼编码表存放在Map<Byte,String>形式；32->01 97->100
    static Map<Byte, String> huffmanCodes = new HashMap<Byte, String>();
    //2,在生成赫夫曼编码表示，需要去拼接路径，定义一个StringBuilder存储莫格叶子节点的路径
    static StringBuilder stringBuilder = new StringBuilder();

    //为了调用方便，我们重载getCodes
    private static Map<Byte, String> getCodes(Node root) {
        if (root == null) {
            return null;
        }
        //处理root的左子树
        getCodes(root.left, "0", stringBuilder);
        getCodes(root.right, "1", stringBuilder);
        return huffmanCodes;
    }

    /**
     * 功能：将传入的node结点的所有叶子结点的赫夫曼编码得到，并放入到huffmanCodes集合
     *
     * @param node          传入结点
     * @param code          路径：左子结点是0，右子结点是1
     * @param stringBuilder 用于拼接路径
     */
    private static void getCodes(Node node, String code, StringBuilder stringBuilder) {
        StringBuilder stringBuilder2 = new StringBuilder(stringBuilder);
        //将code加入到stingBuilder2
        stringBuilder2.append(code);
        if (node != null) {//=null不处理
            //判断当前node是叶子结点还是非叶子结点
            if (node.data == null) {//非叶子结点
                //递归处理
                //向左递归
                getCodes(node.left, "0", stringBuilder2);
                //向右递归
                getCodes(node.right, "1", stringBuilder2);

            } else {//说明是一个叶子结点
                //就表示找到某个叶子结点的最后
                huffmanCodes.put(node.data, stringBuilder2.toString());
            }
        }
    }

    //前序遍历
    private static void preOrder(Node root) {
        if (root != null) {
            root.preOrder();
        } else {
            System.out.println("赫夫曼树为空");
        }
    }

    /**
     * @param bytes 接收字节数组
     * @return 返回的就是List形式 [Node[data =97,weight =5],Node[]data=32,weight=9]....],
     */
    private static List<Node> getNodes(byte[] bytes) {
        //1.创建一个ArrayList
        ArrayList<Node> nodes = new ArrayList<Node>();

        //遍历bytes,统计每一个byte出现的次数->map[key,value]
        Map<Byte, Integer> counts = new HashMap<>();
        for (byte b : bytes) {
            Integer count = counts.get(b);
            if (count == null) {//Map还没有字符数据，第一次
                counts.put(b, 1);
            } else {
                counts.put(b, count + 1);
            }
        }

        //把每一个键值对转成一个Node对象，并加入到nodes组合
        //遍历map
        for (Map.Entry<Byte, Integer> entry : counts.entrySet()) {
            nodes.add(new Node(entry.getKey(), entry.getValue()));
        }
        return nodes;
    }

    //通过List创建对应的赫夫曼树
    private static Node creatHuffmanTree(List<Node> nodes) {
        while (nodes.size() > 1) {
            //排序，从小到大
            Collections.sort(nodes);
            //取出第一颗最小的二叉树
            Node leftNode = nodes.get(0);
            //取出第2颗最小的二叉树
            Node rightNode = nodes.get(1);
            //创建一颗新的二叉树，它的根节点没有data,只有权值
            Node parent = new Node(null, leftNode.weight + rightNode.weight);
            parent.left = leftNode;
            parent.right = rightNode;

            //将已经处理的两颗二叉树从nodes删除
            nodes.remove(leftNode);
            nodes.remove(rightNode);
            //将新的二叉树，加入到nodes
            nodes.add(parent);
        }
        //nodes最后的节点，就是赫夫曼树的根节点
        return nodes.get(0);
    }
}

    //创建Node，待数据和权值
    class Node implements Comparable<Node> {
        Byte data;//存放数据（字符）本身，如'a'=>97 ''->32
        int weight;//权值，表示字符出现的次数
        Node left;
        Node right;

        public Node(Byte data, int weight) {
            this.data = data;
            this.weight = weight;
        }

        @Override
        public int compareTo(Node o) {
            return this.weight - o.weight;
        }

        @Override
        public String toString() {
            return "Node{" +
                    "data=" + data +
                    ", weight=" + weight +
                    '}';
        }

        //前序遍历
        public void preOrder() {
            System.out.println(this);
            if (this.left != null) {
                this.left.preOrder();
            }
            if (this.right != null) {
                this.right.preOrder();
            }
        }
    }