1.原理
2.变长编码
3.赫夫曼编码
1.数据压缩,创建赫夫曼树
2,生成赫夫曼编码和赫夫曼编码后的数据
3,数据解压,使用赫夫曼编码解码
4,文件压缩‘
思路:读取文件->得到赫夫曼编码表-》完成压缩
5,文件解压(文件恢复)
思路:读取压缩文件(数据和赫夫曼编码表)-》完成解压(文件恢复)
import java.io.*;
import java.util.*;
public class HuffmanCode {
public static void main(String[] args) {
/*//测试压缩文件
String srcFile = "d://src.bmp";
String dstFile = "d://dst.zip";
zipFile(srcFile, dstFile);
System.out.println("压缩文件ok~");*/
//测试解压文件
String zipFile = "d://dst.zip";
String dstFile= "d://src2.bmp";
unZipFile(zipFile,dstFile);
System.out.println("解压成功");
/* String content = "i like like like java do you like a java";
byte[] contentBytes = content.getBytes();
System.out.println(contentBytes.length);
byte[] huffmanCodesBytes= huffmanZip(contentBytes);
System.out.println("压缩后的结果是:"+Arrays.toString(huffmanCodesBytes) + "长度="+huffmanCodesBytes.length);
//测试byteToBitString
//System.out.println(byteToBitString(true,(byte)1));
byte[] sourceBytes = decode(huffmanCodes,huffmanCodesBytes);
System.out.println("原来的字符串=" + new String(sourceBytes));
*/
/*List<Node> nodes = getNodes(contentBytes);
System.out.println("nodes=" + nodes);
//测试创建的二叉树
System.out.println("赫夫曼树");
Node huffmanTreeRoot = creatHuffmanTree(nodes);
System.out.println("前序遍历");
huffmanTreeRoot.preOrder();
//测试是否生成了赫夫曼编码
Map<Byte, String> huffmanCodes = getCodes(huffmanTreeRoot);
// getCodes(huffmanTreeRoot,"",stingBuilder);
System.out.println("生成的赫夫曼编码表=" + huffmanCodes);
//测试
byte[] huffmanCodeBytes = zip(contentBytes, huffmanCodes);
System.out.println("huffmanCodeBytes="+ Arrays.toString(huffmanCodeBytes));
//发送huffmanCodeBytes数组*/
}
//编写一个方法,完成对压缩文件的解压
/**
*
* @param zipFile 准备解压的文件
* @param dstFile 将文件解压到哪个路径
*/
public static void unZipFile(String zipFile , String dstFile){
//定义文件输入流
InputStream is = null;
//定义一个对象输入流
ObjectInputStream ois = null;
//定义文件的输出流
OutputStream os = null;
try{
//创建文件输入流
is = new FileInputStream(zipFile);
//创建一个和is关联的对象输入流
ois = new ObjectInputStream(is);
//读取byte数组,huffmanBytes
byte[] huffmanBytes = (byte[]) ois.readObject();
//读取赫夫曼编码表
Map<Byte,String> huffmanCodes = (Map<Byte,String>)ois.readObject();
//解码
byte[] bytes = decode(huffmanCodes,huffmanBytes);
//将bytes数组写入到目标文件
os = new FileOutputStream(dstFile);
//写数据到dstFile文件
os.write(bytes);
}catch (Exception e){
System.out.println(e.getMessage());
}finally {
try {
os.close();
ois.close();
is.close();
}catch (Exception e2){
System.out.println(e2.getMessage());
}
}
}
//编写方法,将一个文件进行压缩
/**
*
* @param srcFile 你传入的希望压缩的文件的全路径
* @param destFile 我们压缩后将压缩文件放到哪个目录
*/
public static void zipFile(String srcFile,String destFile){
//创建输出流
OutputStream os = null;
ObjectOutputStream oos = null;
//创建文件的输入流
FileInputStream is = null;
try {
is =new FileInputStream(srcFile);
//创建一个和源文件大小一样的byte[]
byte[] b = new byte[is.available()];
//读取文件
is .read(b);
//获取到文件对应的赫夫曼编码表
//直接对源文件进行压缩
byte[] huffmanBytes = huffmanZip(b);
//创建文件的输出流,存放压缩文件
os = new FileOutputStream(destFile);
//创建一个和文件输出流关联的ObjectOutputStream
oos = new ObjectOutputStream(os);
//把赫夫曼编码后的自己数组写入压缩文件
oos.writeObject(huffmanBytes);
//这里以对象流的方式写入赫夫曼编码,是为了以后我们恢复源文件时使用
//注意一定要吧赫夫曼编码写入压缩文件
oos.writeObject(huffmanCodes);
}catch (Exception e){
System.out.println(e.getMessage());
}finally {
try {
is.close();
oos.close();
os.close();
}catch (Exception e){
System.out.println(e.getMessage());
}
}
}
//完成数据的解压
//思路:1,[-88, -65, -56, -65, -56, -65, -55, 77, -57, 6, -24, -14, -117, -4, -60, -90, 28]重新先转成赫夫曼编码对应的二进制的字符串
//2.赫夫曼编码对应的二进制的字符串”101010000...=》对照赫夫曼编码=》 "i like like like java do you like a java"
//编写一个方法,完成对压缩数据的解码
/**
*
* @param huffmanCodes 赫夫曼编码表map
* * @param huffmanBytes 赫夫曼编码得到的字节数组
* @return 就是原来的字符串对应的数组
*/
private static byte[] decode(Map<Byte,String> huffmanCodes, byte[] huffmanBytes){
//1,先得到huffmanBytes对应的二进制的字符串,形式10101000...
StringBuilder stringBuilder = new StringBuilder();
//将byte数组转成二进制的字符串
for (int i = 0; i < huffmanBytes.length; i++) {
byte b= huffmanBytes[i];
//判断是不是最后一个字节
boolean flag = (i== huffmanBytes.length -1);
stringBuilder.append(byteToBitString(!flag,b)) ;
}
//System.out.println("赫夫曼字节数组对应的二进制字符串="+stringBuilder.toString());
// return null;
//把字符串安装指定的赫夫曼编码进行解码
//把赫夫曼编码表进行调换,因为反向查询 a->100 100->a
HashMap<String, Byte> map = new HashMap<String,Byte>();
for (Map.Entry<Byte,String> entry: huffmanCodes.entrySet()){
map.put(entry.getValue(),entry.getKey());
}
//创建要给集合,存放byte
List<Byte> list= new ArrayList<>();
for (int i = 0; i < stringBuilder.length(); ) {
int count =1;
boolean flag = true;
Byte b = null;
while (flag){
//取出一个‘0’‘1’
String key = stringBuilder.substring(i,i+count);//i不动,让count移动,指定匹配到一个字符
b = map.get(key);
if (b == null){
count++;
}else{
//匹配到Map<Byte,String>
flag = false;
}
}
list.add(b);
i+= count;//i直接移动到count
}
//当for循环结束后,我们list中就存放了所有的字符
//把list中的数据放入到byte[]并返回
byte b[] = new byte[list.size()];
for (int i=0;i<b.length;i++){
b[i] = list.get(i);
}
return b;
}
/**
* 将一个byte转成一个二进制的字符串
* @param b 传入的byte
* @param flag 标志是否需要补高位如果是true,表示需要补高位,如果是false表示不补
* @return 是该b对应的二进制的字符串(注意是按补码返回
*/
private static String byteToBitString(boolean flag, byte b){
//使用变量保存b
int temp = b;//将b转成int
//如果是正数还存在补高位
if (flag) {
temp |= 256;//按位与256 1 0000 0000 | 0000 0001 =>1 0000 0001
}
String str = Integer.toBinaryString(temp);//返回的是temp对应的二进制的补码
if (flag) {
return str.substring(str.length()-8);
}else {
return str;
}
}
//使用一个方法,将前面的方法封装起来,便于调用
/**
*
* @param bytes 原始的字符串对应的字节数组
* @return 是经过赫夫曼编码处理后的字节数组,压缩后的数组
*/
private static byte[] huffmanZip(byte[] bytes){
List<Node> nodes = getNodes(bytes);
//根据nodes创建赫夫曼树
Node huffmanTreeRoot = creatHuffmanTree(nodes);
//根据赫夫曼树生成赫夫曼编码
Map<Byte, String> huffmanCodes = getCodes(huffmanTreeRoot);
//根据生成的赫夫曼编码压缩得到压缩后的赫夫曼编码字节数组
byte[] huffmanCodeBytes = zip(bytes, huffmanCodes);
return huffmanCodeBytes;
}
//编写一个方法,将字符串对应的byte[]数组,通过生成的赫夫曼编码表,返回一个赫夫曼编码压缩后的byte[]
/**
* @param bytes 这时原始的字符串对应的byte[]
* @param huffmanCodes 生成的赫夫曼编码map
* @return 返回赫夫曼编码处理后的byte[]
* 举例:String conthet= "i like like like java do you like a java";=> byte[] contentBytes = content.getBytes();
* 返回的是字符串
* =》对应的byte[]huffmanCodeBytes,即8位对应一个byte,放入到huffmanCodeBytes
* huffmanCodeBytes[0]=10101000(补码)=>byte【推导10101000=》10101000-1=》10100111(反码)=》11011000(原码)】
*/
//
private static byte[] zip(byte[] bytes, Map<Byte, String> huffmanCodes) {
//1.利用huffmanCodes将bytes转成赫夫曼编码对应的字符串
StringBuilder stringBuilder = new StringBuilder();
//遍历bytes数组
for (byte b : bytes) {
stringBuilder.append(huffmanCodes.get(b));
}
System.out.println("测试stringBuilder~~=" + stringBuilder.toString());
//将字符串转成byte[]
//统计返回byte[] huffmanCodeBytes长度
//int len= (StringBuilder.length()+7)/8
int len;
if (stringBuilder.length() % 8 == 0){
len = stringBuilder.length() / 8;
}else {
len = stringBuilder.length() / 8 + 1;
}
//创建存储压缩后的byte数组
byte[] huffmanCodeBytes= new byte[len];
int index =0;//记录是第几个byte
for (int i = 0; i < stringBuilder.length(); i += 8) {//因为每8位对应一个byte,所以步长+8
String strByte;
if ( i+8 > stringBuilder.length()){//不够8位
strByte = stringBuilder.substring(i);
}else {
strByte = stringBuilder.substring(i, i + 8);
}
//将strByte转成一个byte,放入到huffmanCodeByte
huffmanCodeBytes[index] = (byte)Integer.parseInt(strByte,2);
index++;
}
return huffmanCodeBytes;
}
//生成赫夫曼树对应的赫夫曼编码
//思路:1,将赫夫曼编码表存放在Map<Byte,String>形式;32->01 97->100
static Map<Byte, String> huffmanCodes = new HashMap<Byte, String>();
//2,在生成赫夫曼编码表示,需要去拼接路径,定义一个StringBuilder存储莫格叶子节点的路径
static StringBuilder stringBuilder = new StringBuilder();
//为了调用方便,我们重载getCodes
private static Map<Byte, String> getCodes(Node root) {
if (root == null) {
return null;
}
//处理root的左子树
getCodes(root.left, "0", stringBuilder);
getCodes(root.right, "1", stringBuilder);
return huffmanCodes;
}
/**
* 功能:将传入的node结点的所有叶子结点的赫夫曼编码得到,并放入到huffmanCodes集合
*
* @param node 传入结点
* @param code 路径:左子结点是0,右子结点是1
* @param stringBuilder 用于拼接路径
*/
private static void getCodes(Node node, String code, StringBuilder stringBuilder) {
StringBuilder stringBuilder2 = new StringBuilder(stringBuilder);
//将code加入到stingBuilder2
stringBuilder2.append(code);
if (node != null) {//=null不处理
//判断当前node是叶子结点还是非叶子结点
if (node.data == null) {//非叶子结点
//递归处理
//向左递归
getCodes(node.left, "0", stringBuilder2);
//向右递归
getCodes(node.right, "1", stringBuilder2);
} else {//说明是一个叶子结点
//就表示找到某个叶子结点的最后
huffmanCodes.put(node.data, stringBuilder2.toString());
}
}
}
//前序遍历
private static void preOrder(Node root) {
if (root != null) {
root.preOrder();
} else {
System.out.println("赫夫曼树为空");
}
}
/**
* @param bytes 接收字节数组
* @return 返回的就是List形式 [Node[data =97,weight =5],Node[]data=32,weight=9]....],
*/
private static List<Node> getNodes(byte[] bytes) {
//1.创建一个ArrayList
ArrayList<Node> nodes = new ArrayList<Node>();
//遍历bytes,统计每一个byte出现的次数->map[key,value]
Map<Byte, Integer> counts = new HashMap<>();
for (byte b : bytes) {
Integer count = counts.get(b);
if (count == null) {//Map还没有字符数据,第一次
counts.put(b, 1);
} else {
counts.put(b, count + 1);
}
}
//把每一个键值对转成一个Node对象,并加入到nodes组合
//遍历map
for (Map.Entry<Byte, Integer> entry : counts.entrySet()) {
nodes.add(new Node(entry.getKey(), entry.getValue()));
}
return nodes;
}
//通过List创建对应的赫夫曼树
private static Node creatHuffmanTree(List<Node> nodes) {
while (nodes.size() > 1) {
//排序,从小到大
Collections.sort(nodes);
//取出第一颗最小的二叉树
Node leftNode = nodes.get(0);
//取出第2颗最小的二叉树
Node rightNode = nodes.get(1);
//创建一颗新的二叉树,它的根节点没有data,只有权值
Node parent = new Node(null, leftNode.weight + rightNode.weight);
parent.left = leftNode;
parent.right = rightNode;
//将已经处理的两颗二叉树从nodes删除
nodes.remove(leftNode);
nodes.remove(rightNode);
//将新的二叉树,加入到nodes
nodes.add(parent);
}
//nodes最后的节点,就是赫夫曼树的根节点
return nodes.get(0);
}
}
//创建Node,待数据和权值
class Node implements Comparable<Node> {
Byte data;//存放数据(字符)本身,如'a'=>97 ''->32
int weight;//权值,表示字符出现的次数
Node left;
Node right;
public Node(Byte data, int weight) {
this.data = data;
this.weight = weight;
}
@Override
public int compareTo(Node o) {
return this.weight - o.weight;
}
@Override
public String toString() {
return "Node{" +
"data=" + data +
", weight=" + weight +
'}';
}
//前序遍历
public void preOrder() {
System.out.println(this);
if (this.left != null) {
this.left.preOrder();
}
if (this.right != null) {
this.right.preOrder();
}
}
}