package HuffmanTree.hafumanCode;
import HuffmanTree.HuffmanTree;
import java.awt.event.FocusEvent;
import java.io.*;
import java.lang.annotation.Retention;
import java.util.*;
/**
* 哈夫曼编码
* 1) 赫夫曼编码也翻译为 哈夫曼编码(Huffman Coding),又称霍夫曼编码,是一种编码方式, 属于一种程序算法
* 2) 赫夫曼编码是赫哈夫曼树在电讯通信中的经典的应用之一。
* 3) 赫夫曼编码广泛地用于数据文件压缩。其压缩率通常在 20%~90%之间
* 4) 赫夫曼码是可变字长编码(VLC)的一种。Huffman 于 1952 年提出一种编码方法,称之为最佳编码
*
* @Author: HML
* @Date: 2021/7/31 上午 10:57
* @Version 1.0
*/
public class HuffmanCode {
public static void main(String[] args) throws IOException {
// String content = "i like like like java do you like a java";
// //转换城字节数组
// byte[] contentBytes = content.getBytes();
// System.out.println(Arrays.toString(contentBytes));
// System.out.println(contentBytes.length);
// //将字节数组转换成节点信息
// List<NodeCode> nodes = getNodes(contentBytes);
// System.out.println(nodes);
// //构建哈夫曼树
// NodeCode huffmanTreeRoot = createHuffmanTree(nodes);
// huffmanTreeRoot.preOrder();
// //生成哈夫曼编码
// Map<Byte, String> huffmanCodes = getCodes(huffmanTreeRoot);
// System.out.println("生成的哈夫曼编码="+huffmanCodes);
// //将字符串生成对应的编码数据。相当于压缩,利用哈夫曼编码实现压缩,原来有40长度,
// //进过哈夫曼编码压缩后长度还有13
// byte[] huffmanCodeBytes = zip(contentBytes,huffmanCodes);
// System.out.println(Arrays.toString(huffmanCodeBytes));
// //数据解压过程
// byte[] bytes = decode(huffmanCodes, huffmanCodeBytes);
// System.out.println(new String(bytes));
// String srcFile = "F://test.jpg";
// System.out.println(srcFile);
// String dstFile = "F://test.zip";
// zipFile(srcFile,dstFile);
String zipFile = "F://test.zip";
String dstFile = "D://test.jpg";
unZipFile(zipFile, dstFile);
}
//我们学习了通过赫夫曼编码对一个字符串进行编码和解码, 下面我们来完成对文件的压缩和解压,
//具体要求: 给你一个图片文件,要求对其进行无损压缩, 看看压缩效果如何。
//1) 思路:读取文件-> 得到赫夫曼编码表 -> 完成压缩
public static void zipFile(String srcFile, String dstFile) {
//创建输入流
FileOutputStream os = null;
ObjectOutputStream oos = null;//创建输出流对象
//创建文件的输入流
FileInputStream is = null;
try {
//创建文件的输入流
is = new FileInputStream(srcFile);
//创建一个和源文件一样大小的byte[]
byte[] bytes = new byte[is.available()];
//读取文件
is.read(bytes);
//直接对源文件进行压缩
byte[] huffmanBytes = huffmanZip(bytes);
//创建文件的输出流,存放压缩文件
os = new FileOutputStream(dstFile);
//创建一个和文件输出流关联的输出流对象
oos = new ObjectOutputStream(os);
//把哈弗曼编码后的字节数组写入压缩文件
oos.writeObject(huffmanBytes);
//这里我们以对象流的方式写入 赫夫曼编码,是为了以后我们恢复源文件时使用
//注意一定要把赫夫曼编码 写入压缩文件
oos.writeObject(huffmanCodes);
} catch (Exception e) {
System.out.println(e.getMessage());
} finally {
try {
is.close();
oos.close();
os.close();
} catch (Exception e) {
String message = e.getMessage();
System.out.println(message);
}
}
}
//文件解压
//思路:读取压缩文件(数据和哈夫曼编码表),重新恢复成原来的文件(完成解压)
/**
* @param zipFile 解压文件名
* @param dstFile 解压到那个路径
*/
private static void unZipFile(String zipFile, String dstFile) throws IOException {
//定义文件的输入流
InputStream is = null;
//定义一个对象的输入流
ObjectInputStream ois = null;
//定义文件的输出流
OutputStream os = null;
try {
//创建文件的输入流
is = new FileInputStream(zipFile);
//创建一个和is关联的对象输入流
ois = new ObjectInputStream(is);
//读取byte数组
byte[] huffmanBytes = (byte[]) ois.readObject();
//读取哈夫曼编码表
Map<Byte, String> huffmanCodes = (Map<Byte, String>) ois.readObject();
//解码
byte[] decode = decode(huffmanCodes, huffmanBytes);
//将byte数组写出到目标文件
os = new FileOutputStream(dstFile);
//写入数据到dstFile
os.write(decode);
} catch (Exception e) {
e.printStackTrace();
} finally {
os.close();
ois.close();
is.close();
}
}
//将前面的方法封装起来
/**
* bytes 原始的字符串对应的字节数组
*
* @param bytes
* @return 是经过 赫夫曼编码处理后的字节数组(压缩后的数组)
*/
private static byte[] huffmanZip(byte[] bytes) {
List<NodeCode> nodes = getNodes(bytes);
//创建哈夫曼树
NodeCode huffmanTree = createHuffmanTree(nodes);
//得到哈夫曼编码
Map<Byte, String> codes = getCodes(huffmanTree);
//根据哈夫曼编码压缩后的哈夫曼字节数组
byte[] zip = zip(bytes, codes);
return zip;
}
//生成哈夫曼树的哈夫曼编码
/**
* 思路:
* 1. 将哈夫曼编码表存放在Map<Byte,String>形式
* 生 成 的 赫 夫 曼 编 码 表 {32=01, 97=100, 100=11000, 117=11001,
* 101=1110, 118=11011, 105=101, 121=11010, 106=0010, 107=1111, 108=000, 111=0011}
* 2. 在生成哈夫曼编码的同时,需要去拼接路径,定义StringBuilder存储某个叶子节点的路径
*/
static Map<Byte, String> huffmanCodes = new HashMap<Byte, String>();
//2. 在生成赫夫曼编码表示,需要去拼接路径, 定义一个 StringBuilder 存储某个叶子结点的路径
static StringBuilder stringBuilder = new StringBuilder();
//为了调用方便,我们从写getCodes()方法
private static Map<Byte, String> getCodes(NodeCode root) {
if (root == null) {
return null;
}
//处理root的左子树
getCodes(root.left, "0", stringBuilder);
//处理root的右子树
getCodes(root.right, "1", stringBuilder);
return huffmanCodes;
}
/**
* 功能:将传入的node节点的所有叶子节点的哈夫曼编码得到,并放入哈夫曼code中
*
* @param node 传入节点
* @param code 路径 左边:0 右边:1
* @param stringBuilder 用于拼接路径
*/
private static void getCodes(NodeCode node, String code, StringBuilder stringBuilder) {
StringBuilder st = new StringBuilder(stringBuilder);
//将code加入st
st.append(code);
if (node != null) {
if (node.data == null) {//非叶子节点,叶子节点的data域是存在值的
//递归处理
//向左递归
getCodes(node.left, "0", st);
//向右递归
getCodes(node.right, "1", st);
} else {
//说明找到一个叶子节点
//就表示找到某个叶子节点的最后
huffmanCodes.put(node.data, st.toString());
}
}
}
public static List<NodeCode> getNodes(byte[] bytes) {
//1. 创建一个arraylist
ArrayList<NodeCode> nodeCodes = new ArrayList<>();
//2. 遍历byte中每个字符出现的次数,使用map来进行存储
HashMap<Byte, Integer> map = new HashMap<>();
for (byte by : bytes) {
Integer count = map.get(by);
if (count == null) {
//说明map中没有这个字符,我们将其加入到map中
map.put(by, 1);
} else {
//说明这个字符已经存在,我们让其进行总数加1
map.put(by, count + 1);
}
}
//将把每一个键值对转换成一个node对象,并将其加入到nodes集合中
//遍历map,这里是遍历map使用entrySet方法,我怎么这么笨???
for (Map.Entry<Byte, Integer> entry : map.entrySet()) {
//使用new关键字是没都去创建一个新的对象,值就不会被覆盖了
nodeCodes.add(new NodeCode(entry.getKey(), entry.getValue()));
}
return nodeCodes;
}
//使用赫夫曼编码来生成赫夫曼编码数据
//编写一个方法,通过生成的哈夫曼编码表,返回一个哈夫曼编码压缩后的byte[],相当于生成了利用哈夫曼编码的字节数组
/**
* 编写一个方法,将字符串对应的 byte[] 数组,通过生成的赫夫曼编码表,,这里相当于进行了压缩
* 返回一个赫夫曼编码 压缩后的 byte[]
*
* @param bytes 原始字符串对应的byte[]
* @param huffmanCodes 返回哈夫曼处理过后的byte[]
* @return
*/
private static byte[] zip(byte[] bytes, Map<Byte, String> huffmanCodes) {
//利用huffmanCode将bytes转成荷夫曼编码对应的字符串
StringBuilder stringBuilder = new StringBuilder();
//遍历byte数组,这里我们相当于一个拼接
for (byte b : bytes) {
// System.out.println("b="+b);
// System.out.println("get(b)="+huffmanCodes.get(b));
stringBuilder.append(huffmanCodes.get(b));
//System.out.println(stringBuilder.toString());
}
int length = 0;//求得length,为创建后面的byte数组准备
if (stringBuilder.length() % 8 == 0) {
length = stringBuilder.length() / 8;
} else {
length = stringBuilder.length() / 8 + 1;
}
//创建压缩后的byte数组
byte[] huffmanCodeBytes = new byte[length];
int index = 0;
for (int i = 0; i < stringBuilder.length(); i += 8) {//因为每8位对应一个byte,所以步长是8
String strByte;
if (i + 8 > stringBuilder.length()) {
//不够8位,我们直接返回返回每一位即可
strByte = stringBuilder.substring(i);
} else {
strByte = stringBuilder.substring(i, i + 8);
}
//将二进制值字符转成十进制值,进一步缩小
huffmanCodeBytes[index] = (byte) Integer.parseInt(strByte, 2);//输出成二进制的数
index++;
}
return huffmanCodeBytes;
}
/**
* 使用哈夫曼编码来解码数据
* 1. 前面我们得到了哈夫曼编码和对应的编码byte[]
* 2. 现在使用哈夫曼编码来解码,,将经过编码后的字符串解码成原来的字符串
* * 将一个 byte 转成一个二进制的字符串,
*
*/
/**
* 将一个 byte 转成一个二进制的字符串,
*
* @param flag 是否需要补充高位的需要标志 ,true:要补,false:不要,如果是最后一个字节,无需补高位
* @param b 对应的二进制字符串
* @return
*/
public static String byteToString(boolean flag, byte b) {
//使用变量来保存b
int tmp = b;//将b转成int
//如果是正数,我们还存在补高位
if (flag) {
tmp |= 256; //按位与256吗,2^8次,每8位取
}
String str = Integer.toBinaryString(tmp);//tmp对应的二进制解码
if (flag) {
return str.substring(str.length() - 8);
} else {
return str;
}
}
/**
* //完成对哈夫曼树的解码
*
* @param huffmanCodes 哈夫曼编码表 map
* @param huffmanBytes 经过哈夫曼编码得到后的字节数组[-88,....]
* @return 就是原来字符串对应的数组
*/
public static byte[] decode(Map<Byte, String> huffmanCodes, byte[] huffmanBytes) {
//1。先得到huffmanByte对应的二进制字符串,形式1010100011.。。
StringBuilder stringBuilder = new StringBuilder();
//将byte数组转成二进制的字符串
for (int i = 0; i < huffmanBytes.length; i++) {
byte b = huffmanBytes[i];
//判断是不是最后一个字节。这里是与前面的bytetostring里面的方法对应,我们判断如果是最后一个字符,我们只需将其拼接,无需将其进行补全。
boolean flag = (i == huffmanBytes.length - 1);//为真,即不需要进行补位
stringBuilder.append(byteToString(!flag, b));//!flag取反
}
System.out.println(stringBuilder.toString());
//把字符串按照指定的哈夫曼编码进行解码
//把哈弗曼编码进行调换,因为反向查询 a->97 = 100 -> a
Map<String, Byte> map = new HashMap<>();
//哈夫曼编码进行调换
for (Map.Entry<Byte, String> entry : huffmanCodes.entrySet()) {
map.put(entry.getValue(), entry.getKey());
}
System.out.println(map + "map");
//创建要给集合.存放byte
ArrayList<Byte> list = new ArrayList<>();
//扫描stringbuilder,每一位一位的进行扫描,这里不能进行自加1,原因:i+count,
//遍历的时候,每次走count,直到匹配到哈夫曼对应的字母时才i+count,此时,i移动i+count,不是i++
for (int i = 0; i < stringBuilder.length(); ) {
int count = 1;//小的计数器
boolean flag = true;
Byte b = null;
while (flag) {
//取出一个1或者0,因为是二进制吗,啊
String key = stringBuilder.substring(i, i + count);//i不动,count进行后移,指导匹配到一个字符
b = map.get(key);
if (b == null) {
//说明没有匹配到
count++;
} else {
//匹配到
flag = false;
}
}
list.add(b);
i += count;//i直接移动到count
}
//for循环结束后,list中就放入了所有的字符,,将list中的数据放入byte[]并返回‘
byte[] b = new byte[list.size()];
for (int i = 0; i < list.size(); i++) {
b[i] = list.get(i);
}
return b;
}
//2. 通过list来创建哈夫曼树
public static NodeCode createHuffmanTree(List<NodeCode> nodeCodes) {
while (nodeCodes.size() > 1) {
//先进性一轮排序,在进行处理
Collections.sort(nodeCodes);
//取出最小的二叉树
NodeCode leftNode = nodeCodes.get(0);
//取出次小的二叉树
NodeCode rightNode = nodeCodes.get(1);
//组成一颗新的二叉树,节点本身的数据为空
NodeCode parent = new NodeCode(null, leftNode.weight + rightNode.weight);
//将父节点的左子节点指向左节点
//将父节点的右子节点指向右节点,然后清除原有的节点信息
parent.left = leftNode;
parent.right = rightNode;
nodeCodes.remove(leftNode);
nodeCodes.remove(rightNode);
//将新的parent加入到list中,方便进行后续计算迭代
nodeCodes.add(parent);
}
return nodeCodes.get(0);
}
//前序遍历
public static void preOrder(NodeCode root) {
if (root != null) {
root.preOrder();
} else {
System.out.println("error");
}
}
}
class NodeCode implements Comparable<NodeCode> {
Byte data;//存放数据本身
int weight;//节点的权值,这里表示字符出现的次数
NodeCode left;
NodeCode right;
public NodeCode(Byte data, int weight) {
this.data = data;
this.weight = weight;
}
@Override
public String toString() {
return "NodeCode{" +
"data=" + data +
", weight=" + weight +
'}';
}
//编写前序遍历的方法
public void preOrder() {
System.out.println(this);
if (this.left != null) {
this.left.preOrder();
}
if (this.right != null) {
this.right.preOrder();
}
}
//从小到大进行排序
@Override
public int compareTo(NodeCode o) {
return this.weight - o.weight;
}
}
尚硅谷-韩老师学习——哈夫曼编码及文件的压缩和解压缩操作
最新推荐文章于 2023-01-10 10:21:11 发布