clc
clear
fid=fopen( 'C:\Users\yichao\Desktop\新建文本文档.txt');%打开 txt 文件
[zimu]=fscanf(fid, '%c'); %读取二进制文件的数据,并将数据存入矩阵
sort_str1=sort(zimu)%按照字符的 ASCII 值对字符串排序
j=1;
str2(1)=sort_str1(1);
for i=1:length(sort_str1)-1 %计算出字符串的种类
if strcmp(sort_str1(i),sort_str1(i+1))~=1
j=j+1;
end
str2(j)=sort_str1(i+1);
end
str2
for i = 1:length(str2) %length 函数获取字符串长度
str_num =strfind(sort_str1,str2(i)); %strfind(S1,S2): 寻找 S2 是否匹配 S1 ,并返回 S2 的位置
count1(i) = length(str_num);
end
count1
count=count1(1:end);
p=count./sum(count);
sum(-p.*log2(p)) %计算信源熵
if length(find(p<0))~=0
error('概率不应该小于0!')
end
if abs(sum(p)-1)>10e-10
error('概率之和大于1,请检查输入!')
end
n=length(p);
q=sort(p);
m=zeros(n-1,n);
for i=1:n-1
[q,e]=sort(q);
m(i,:)=[e(1:n-i+1),zeros(1,i-1)]; %由数组l 构建一个矩阵,该矩阵表明概率合并时的顺序,用于后面的编码
q=[q(1)+q(2),q(3:n),1];
end
for i=1:n-1
c(i,:)=blanks(n*n);%c 矩阵用于进行huffman 编码
end
c(n-1,n)='1';
c(n-1,2*n)='0';
for i=2:n-1
c(n-i,1:n-1)=c(n-i+1,n*(find(m(n-i+1,:)==1))-(n-2):n*(find(m(n-i+1,:)==1))) ;%矩阵c 的第n-i 的第一个元素的n-1 的字符赋值为对应于a 矩阵中第n-i+1 行中值为1 的位置在c 矩阵中的编码值
c(n-i,1*n)='1';
c(n-i,n+1:2*n-1)=c(n-i,1:n-1); %矩阵c 的第n-i 的第二个元素的n-1 的字符与第n-i 行的第一个元素的前n-1 个符号相同,因为其根节点相同
c(n-i,2*n)='0';
for j=1:i-1
c(n-i,(j+1)*n+1:(j+2)*n)=c(n-i+1,n*(find(m(n-i+1,:)==j+1)-1)+1:n*find(m(n-i+1,:)==j+1)) ;%矩阵c 中第n-i 行第j+1 列的值等于对应于a 矩阵中第n-i+1 行中值为j+1 的前面一个元素的位置在c 矩阵中的编码值
end
end
for i=1:n
hm(i,1:n)=c(1,n*(find(m(1,:)==i)-1)+1:find(m(1,:)==i)*n);%用hm表示最后的huffman 编码
len(i)=length(find(abs(hm(i,:))~=32)); %计算每一个编码的长度
end
hm
len
H=sum(-p.*log2(p)) ;
q=sort(p)
pingjunmachang=sum(q.*len) %计算平均码长
xiaolv=H/pingjunmachang*100