Java计算文件的hash值

 

如何知道一个文件是否改变了呢?当然是用比较文件hash值的方法,文件hash又叫文件签名,文件中哪怕一个bit位被改变了,文件hash就会不同。

比较常用的文件hash算法有MD5和SHA-1。
我用的是MD5算法,java中,计算MD5可以用MessageDigest这个类。

 

下面提供两个工具类(请使用第一个工具类,第二个有问题

 

第一个工具类:

代码如下:

package com.test;  
  
import java.io.FileInputStream;  
import java.io.FileNotFoundException;  
import java.io.InputStream;  
import java.math.BigInteger;  
import java.security.MessageDigest;  
  
public class MD5Util {  
      
    public static void main(String[] args) {  
        try {  
            //此处我测试的是我本机jdk源码文件的MD5值 
        	String filePath = "C:\\Program Files\\Java\\jdk1.7.0_45\\src.zip";
        	
            String md5Hashcode = md5HashCode(filePath);
            String md5Hashcode32 = md5HashCode32(filePath);  
            
            System.out.println(md5Hashcode + ":文件的md5值");  
            System.out.println(md5Hashcode32+":文件32位的md5值"); 
            
            //System.out.println(-100 & 0xff);
        } catch (FileNotFoundException e) {  
            e.printStackTrace();  
        }  
    }  
    
    /**
     * 获取文件的md5值 ,有可能不是32位
     * @param filePath	文件路径
     * @return
     * @throws FileNotFoundException
     */
    public static String md5HashCode(String filePath) throws FileNotFoundException{  
        FileInputStream fis = new FileInputStream(filePath);  
        return md5HashCode(fis);  
    }  
    
    /**
     * 保证文件的MD5值为32位
     * @param filePath	文件路径
     * @return
     * @throws FileNotFoundException
     */
    public static String md5HashCode32(String filePath) throws FileNotFoundException{  
    	FileInputStream fis = new FileInputStream(filePath);  
    	return md5HashCode32(fis);  
    }  
    
    /**
     * java获取文件的md5值  
     * @param fis 输入流
     * @return
     */
    public static String md5HashCode(InputStream fis) {  
        try {  
        	//拿到一个MD5转换器,如果想使用SHA-1或SHA-256,则传入SHA-1,SHA-256  
            MessageDigest md = MessageDigest.getInstance("MD5"); 
            
            //分多次将一个文件读入,对于大型文件而言,比较推荐这种方式,占用内存比较少。
            byte[] buffer = new byte[1024];  
            int length = -1;  
            while ((length = fis.read(buffer, 0, 1024)) != -1) {  
                md.update(buffer, 0, length);  
            }  
            fis.close();
            //转换并返回包含16个元素字节数组,返回数值范围为-128到127
  			byte[] md5Bytes  = md.digest();
            BigInteger bigInt = new BigInteger(1, md5Bytes);//1代表绝对值 
            return bigInt.toString(16);//转换为16进制
        } catch (Exception e) {  
            e.printStackTrace();  
            return "";  
        }  
    }  
    
    /**
     * java计算文件32位md5值
     * @param fis 输入流
     * @return
     */
  	public static String md5HashCode32(InputStream fis) {
  		try {
  			//拿到一个MD5转换器,如果想使用SHA-1或SHA-256,则传入SHA-1,SHA-256  
  			MessageDigest md = MessageDigest.getInstance("MD5");
  			
  			//分多次将一个文件读入,对于大型文件而言,比较推荐这种方式,占用内存比较少。
  			byte[] buffer = new byte[1024];
  			int length = -1;
  			while ((length = fis.read(buffer, 0, 1024)) != -1) {
  				md.update(buffer, 0, length);
  			}
  			fis.close();
  			
  			//转换并返回包含16个元素字节数组,返回数值范围为-128到127
  			byte[] md5Bytes  = md.digest();
  			StringBuffer hexValue = new StringBuffer();
  			for (int i = 0; i < md5Bytes.length; i++) {
  				int val = ((int) md5Bytes[i]) & 0xff;//解释参见最下方
  				if (val < 16) {
  					/**
  					 * 如果小于16,那么val值的16进制形式必然为一位,
  					 * 因为十进制0,1...9,10,11,12,13,14,15 对应的 16进制为 0,1...9,a,b,c,d,e,f;
  					 * 此处高位补0。
  					 */
  					hexValue.append("0");
  				}
  				//这里借助了Integer类的方法实现16进制的转换 
  				hexValue.append(Integer.toHexString(val));
  			}
  			return hexValue.toString();
  		} catch (Exception e) {
  			e.printStackTrace();
  			return "";
  		}
  	}
  	
  	/**
  	 * 方法md5HashCode32 中     ((int) md5Bytes[i]) & 0xff   操作的解释:
  	 * 在Java语言中涉及到字节byte数组数据的一些操作时,经常看到 byte[i] & 0xff这样的操作,这里就记录总结一下这里包含的意义: 
	 * 1、0xff是16进制(十进制是255),它默认为整形,二进制位为32位,最低八位是“1111 1111”,其余24位都是0。 
     * 2、&运算: 如果2个bit都是1,则得1,否则得0; 
     * 3、byte[i] & 0xff:首先,这个操作一般都是在将byte数据转成int或者其他整形数据的过程中;使用了这个操作,最终的整形数据只有低8位有数据,其他位数都为0。 
     * 4、这个操作得出的整形数据都是大于等于0并且小于等于255的
  	 */
  
}  

运行结果如下图:

第二个工具类:

结果一定为32位的,具体可看代码,代码如下:

package com.test;

import java.io.File;
import java.io.FileInputStream;
import java.io.FileNotFoundException;
import java.io.IOException;
import java.nio.ByteBuffer;
import java.nio.channels.FileChannel;
import java.security.MessageDigest;
import java.security.NoSuchAlgorithmException;
import java.util.Arrays;

/**
 * Md5校验工具类
 */
public class MD5Util2 {

    private static final char[] hexDigits = {'0', '1', '2', '3', '4', '5', '6', '7', '8', '9',
            'a', 'b', 'c', 'd', 'e', 'f'};
    
    public static void main(String[] args) {
    	//此处我测试的是我本机jdk源码文件的MD5值
		String filePath = "C:\\Program Files\\Java\\jdk1.7.0_45\\src.zip";
		String md5Hashcode2 = MD5Util2.getFileMD5(new File(filePath));
		
		System.out.println("MD5Util2计算文件md5值为:" + md5Hashcode2);
		System.out.println("MD5Util2计算文件md5值的长度为:" + md5Hashcode2.length());
	}

    /**
     * Get MD5 of a file (lower case)
     * @return empty string if I/O error when get MD5
     */
    public static String getFileMD5( File file) {

        FileInputStream in = null;
        try {
            in = new FileInputStream(file);
            FileChannel ch = in.getChannel();
            return MD5(ch.map(FileChannel.MapMode.READ_ONLY, 0, file.length()));
        } catch (FileNotFoundException e) {
            return "";
        } catch (IOException e) {
            return "";
        } finally {
            if (in != null) {
                try {
                    in.close();
                } catch (IOException e) {
                    // 关闭流产生的错误一般都可以忽略
                }
            }
        }

    }

    /**
     * MD5校验字符串
     * @param s String to be MD5
     * @return 'null' if cannot get MessageDigest
     */
    
    private static String getStringMD5( String s) {
        MessageDigest mdInst;
        try {
            // 获得MD5摘要算法的 MessageDigest 对象
            mdInst = MessageDigest.getInstance("MD5");
        } catch (NoSuchAlgorithmException e) {
            e.printStackTrace();
            return "";
        }

        byte[] btInput = s.getBytes();
        // 使用指定的字节更新摘要
        mdInst.update(btInput);
        // 获得密文
        byte[] md = mdInst.digest();
        // 把密文转换成十六进制的字符串形式
        int length = md.length;
        char str[] = new char[length * 2];
        int k = 0;
        for (byte b : md) {
            str[k++] = hexDigits[b >>> 4 & 0xf];
            str[k++] = hexDigits[b & 0xf];
        }
        return new String(str);
    }

    
    @SuppressWarnings("unused")
	private static String getSubStr( String str, int subNu, char replace) {
        int length = str.length();
        if (length > subNu) {
            str = str.substring(length - subNu, length);
        } else if (length < subNu) {
            // NOTE: padding字符填充在字符串的右侧,和服务器的算法是一致的
            str += createPaddingString(subNu - length, replace);
        }
        return str;
    }

    
    private static String createPaddingString(int n, char pad) {
        if (n <= 0) {
            return "";
        }

        char[] paddingArray = new char[n];
        Arrays.fill(paddingArray, pad);
        return new String(paddingArray);
    }

    /**
     * 计算MD5校验
     * @param buffer
     * @return 空串,如果无法获得 MessageDigest实例
     */
    
    private static String MD5(ByteBuffer buffer) {
        String s = "";
        try {
            MessageDigest md = MessageDigest.getInstance("MD5");
            md.update(buffer);
            byte tmp[] = md.digest(); // MD5 的计算结果是一个 128 位的长整数,
            // 用字节表示就是 16 个字节
            char str[] = new char[16 * 2]; // 每个字节用 16 进制表示的话,使用两个字符,
            // 所以表示成 16 进制需要 32 个字符
            int k = 0; // 表示转换结果中对应的字符位置
            for (int i = 0; i < 16; i++) { // 从第一个字节开始,对 MD5 的每一个字节
                // 转换成 16 进制字符的转换
                byte byte0 = tmp[i]; // 取第 i 个字节
                str[k++] = hexDigits[byte0 >>> 4 & 0xf]; // 取字节中高 4 位的数字转换, >>>,
                // 逻辑右移,将符号位一起右移
                str[k++] = hexDigits[byte0 & 0xf]; // 取字节中低 4 位的数字转换
            }
            s = new String(str); // 换后的结果转换为字符串

        } catch (NoSuchAlgorithmException e) {
            e.printStackTrace();
        }
        return s;
    }

}

运行结果如下图:

 

两个工具类的对比:

测试代码如下:

package com.test;

import java.io.File;
import java.io.FileNotFoundException;

public class test {
	public static void main(String[] args) {
		try {
			//此处我测试的是我本机jdk源码文件的MD5值
			String filePath = "C:\\Program Files\\Java\\jdk1.7.0_45\\src.zip";
			
			long start = System.currentTimeMillis();
			String md5Hashcode = MD5Util.md5HashCode(filePath);
			long end = System.currentTimeMillis();
			
			String md5Hashcode2 = MD5Util2.getFileMD5(new File(filePath));
			long end1 = System.currentTimeMillis();
			
			System.out.println("MD5Util 计算文件md5值为:" + md5Hashcode + " --useTime:"+(end-start));
			System.out.println("MD5Util2计算文件md5值为:" + md5Hashcode2 + " --useTime:"+(end1-end));
		} catch (FileNotFoundException e) {
			e.printStackTrace();
		}
		
	}
}

运行结果如下图:


 

结论:

虽然对比用时,感觉使用第二个工具类效率更高!

但是 NIO的FileChannel 存在一个巨大的BUG使用它会一直不释放文件句柄,即生成MD5的文件不能操作(移动或删除等),这个BUG网上吵得沸沸扬扬,至今没有解决,毕竟是SUN的BUG,解铃还需系铃人啊!所以推荐使用文件分块读取的方法-

即应该用第一个工具类!

即应该用第一个工具类!

即应该用第一个工具类!

 

番外篇:

其实还有一个重点,就是如何知道自己生成的MD5值是否正确呢?

方法很多,其实有一个挺简单的方法,不需要另外安装什么软件。

使用windows自带的命令即可:certutil -hashfile [文件路径] MD5,

例子如下:

 

 

 

 

  • 17
    点赞
  • 97
    收藏
    觉得还不错? 一键收藏
  • 15
    评论
文件hash 可以通过 Java 的 MessageDigest 类来计算,具体实现步骤如下: 1. 读取文件内容,可以使用 FileInputStream 类来读取文件; 2. 使用 MessageDigest 类来计算文件内容hash ; 3. 将 hash 转换为十六进制字符串,可以使用 BigInteger 类来实现; 4. 将每个文件hash 存储到一个 Set 集合中,用于判断文件是否重复。 以下是一个示例代码: ```java import java.io.File; import java.io.FileInputStream; import java.math.BigInteger; import java.security.MessageDigest; import java.util.HashSet; import java.util.Set; public class FileHashDeduplication { public static void main(String[] args) { String directoryPath = "C:/path/to/directory"; Set<String> hashSet = new HashSet<>(); File directory = new File(directoryPath); if (directory.isDirectory()) { File[] files = directory.listFiles(); if (files != null) { for (File file : files) { try { String hash = getFileHash(file); if (!hashSet.contains(hash)) { hashSet.add(hash); // do something with the file System.out.println(file.getPath()); } } catch (Exception e) { e.printStackTrace(); } } } } } private static String getFileHash(File file) throws Exception { MessageDigest messageDigest = MessageDigest.getInstance("MD5"); FileInputStream fileInputStream = new FileInputStream(file); byte[] buffer = new byte[1024]; int len; while ((len = fileInputStream.read(buffer)) != -1) { messageDigest.update(buffer, 0, len); } fileInputStream.close(); BigInteger bigInteger = new BigInteger(1, messageDigest.digest()); return bigInteger.toString(16); } } ``` 在上面的代码中,getFileHash() 方法用于计算文件hash ,使用 MD5 算法计算计算出的结果以十六进制字符串的形式返回。getFileHash() 方法中的代码可以自行修改,例如可以使用 SHA-256 算法计算文件hash 。使用 Set 集合来判断文件是否重复,如果集合中已经包含了该文件hash ,则说明该文件已经存在,否则将该文件hash 添加到集合中。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 15
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值