Java获取文件类型Mime Type的各种方法

最新推荐文章于 2024-06-05 19:31:06 发布

WheroJ

最新推荐文章于 2024-06-05 19:31:06 发布

阅读量6.8k

点赞数

分类专栏： Java学习笔记

Java学习笔记专栏收录该内容

9 篇文章 0 订阅

订阅专栏

本文转载自： http://hotsunshine.iteye.com/blog/857485

使用 javax.activation.MimetypesFileTypeMap
需要引入activation.jar这个jar包 , 他可以从下面这个网站获得http://java.sun.com/products/javabeans/glasgow/jaf.html.
这个MimetypesFileMap类会映射出一个file的Mime Type，这些Mime Type类型是在activation.jar包里面的资源文件中定义的

示例代码

[java]view plaincopy 
   
 import javax.activation.MimetypesFileTypeMap;  
 import java.io.File;  
   
 class GetMimeType {  
   public static void main(String args[]) {  
     File f = new File("gumby.gif");  
     System.out.println("Mime Type of " + f.getName() + " is " +   
                          new MimetypesFileTypeMap().getContentType(f));  
     // expected output :   
     // "Mime Type of gumby.gif is image/gif"  
   }  
 }  

自带的mime-type列表中的数量有限，但是它提供了方法让您可以很方便的添加更多的mime类型

MimetypesFileTypeMap 会在用户系统的很多地方去查找文件的MIME类型。当一个查找MIME类型的请求到达后，他会按照下面这个顺序去查找MIME类型

首先通过程序将文件添加到MimetypesFileTypeMap的一个实例中
查找用户的home路径下的文件 .mime.types
查找文件 <java.home>/lib/mime.types
查找文件或者资源 META-INF/mime.types
查找文件或者资源 META-INF/mimetypes.default (一般只在 activation.jar 中去查找).

当你需要处理一个传入的一般文件命名的文件的时候，这个方法是非常有趣的。结果出来的速度很快，因为只有扩展名被用来猜测文件的自然属性

使用 java.net.URL
警告：这个方法非常慢
与上面所说的匹配后缀名类似。后缀名和mime-type的映射关系被定义在[jre_home]\lib\content-types.properties这个文件中

[java]view plaincopy 
   
 import java.net.*;   
   
 public class FileUtils{   
   public static String getMimeType(String fileUrl)   
     throws java.io.IOException, MalformedURLException   
   {   
     String type = null;   
     URL u = new URL(fileUrl);   
     URLConnection uc = null;   
     uc = u.openConnection();   
     type = uc.getContentType();   
     return type;   
   }   
   
   public static void main(String args[]) throws Exception {   
     System.out.println(FileUtils.getMimeType("file://c:/temp/test.TXT"));   
     // output :  text/plain   
   }   
 }  

来自R. Lovelock 的笔记：
我尝试去找一个最好的能获取mime type的类型的方法，发现你的发现很有用，但是现在我发现，可以通过URLConnection来查找，并没有像你描述的那么慢

[java]view plaincopy 
   
 import java.net.FileNameMap;   
 import java.net.URLConnection;   
   
 public class FileUtils {   
   
   public static String getMimeType(String fileUrl)   
       throws java.io.IOException   
     {   
       FileNameMap fileNameMap = URLConnection.getFileNameMap();   
       String type = fileNameMap.getContentTypeFor(fileUrl);   
       return type;   
     }   
   
     public static void main(String args[]) throws Exception {   
       System.out.println(FileUtils.getMimeType("file://c:/temp/test.TXT"));   
       // output :  text/plain   
     }   
   }  
 }  

使用 Apache Tika
Tika是lucene的子项目，它是通过已经存在的解析库在各种文档中查找并提取元数据和结构化文本内容的工具包。
这个包提供了罪行文件类型的支持，包括office2007（docs/pptx/xlsx/etc...）

Apache Tika
Tika有很多依赖包，大约有20个jar包！但是它所能做的不仅仅是检测文件类型这么简单，例如，你可以解析PDF或者DOC文件，并很容易的获取文本和元数据

[java]view plaincopy 
   
 import java.io.File;   
 import java.io.FileInputStream;   
   
 import org.apache.tika.metadata.Metadata;   
 import org.apache.tika.parser.AutoDetectParser;   
 import org.apache.tika.parser.Parser;   
 import org.apache.tika.sax.BodyContentHandler;   
 import org.xml.sax.ContentHandler;   
   
 public class Main {   
   
     public static void main(String args[]) throws Exception {   
   
     FileInputStream is = null;   
     try {   
       File f = new File("C:/Temp/mime/test.docx");   
       is = new FileInputStream(f);   
   
       ContentHandler contenthandler = new BodyContentHandler();   
       Metadata metadata = new Metadata();   
       metadata.set(Metadata.RESOURCE_NAME_KEY, f.getName());   
       Parser parser = new AutoDetectParser();   
       // OOXMLParser parser = new OOXMLParser();   
       parser.parse(is, contenthandler, metadata);   
       System.out.println("Mime: " + metadata.get(Metadata.CONTENT_TYPE));   
       System.out.println("Title: " + metadata.get(Metadata.TITLE));   
       System.out.println("Author: " + metadata.get(Metadata.AUTHOR));   
       System.out.println("content: " + contenthandler.toString());   
     }   
     catch (Exception e) {   
       e.printStackTrace();   
     }   
     finally {   
         if (is != null) is.close();   
     }   
   }   
 }  

使用JMimeMagic
通过检测文件后缀名去查找文件类型显然不是一个健壮的方法。JMimeMagic库提供了更健壮的检测方法，他是一个通过检查magic headers来判断文件或者流的mime 类型的java工具包

// snippet for JMimeMagic lib
// http://sourceforge.net/projects/jmimemagic/

[java]view plaincopy 
   
 Magic parser = new Magic() ;  
 // getMagicMatch accepts Files or byte[],  
 // which is nice if you want to test streams  
 MagicMatch match = parser.getMagicMatch(new File("gumby.gif"));  
 System.out.println(match.getMimeType()) ;  

使用 mime-util

另一个工具是mime-util，这个工具可以通过检测文件扩展名，或者检测magic header 两种技术方式来实现mime类型的检测

[java]view plaincopy 
   
 import eu.medsea.mimeutil.MimeUtil;  
 public class Main {  
     public static void main(String[] args) {  
         MimeUtil.registerMimeDetector("eu.medsea.mimeutil.detector.MagicMimeMimeDetector");  
         File f = new File ("c:/temp/mime/test.doc");  
         Collection<?> mimeTypes = MimeUtil.getMimeTypes(f);  
         System.out.println(mimeTypes);  
         //  output : application/msword  
     }  
 }  

mime-util的比较好的一点是它是轻量级的，只依赖于slf4j一个包

在Http请求中，有时需要知道Content-Type类型，尤其是上传文件时，更为重要，虽然有些办法可以解决，但都不太准确或者繁琐，索性我发现一个开源的类库能够解决相对完美的解决这个问题，它就是jMimeMagic。

jMimeMagic是一个用来检测文件或者数据流的 MIME 类型的 Java 类库。最新版本是V 0.1.2。需要jar包：commons-logging-1.0.x.jar，log4j-1.2.x.jar

下载地址：点击打开链接

它的用法很简单，如下：

[java]view plaincopy 
   
 File file = new File("e:\\test\\123.gif")  
 MagicMatch match = Magic.getMagicMatch(file, false, true);  
 String contentType = match.getMimeType();  
 System.out.println(contentType);  

不过，该方法在效率上低一些，算是它的缺点了。

WheroJ

关注

0
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
Java获取文件类型Mime Type的各种方法

本文转载自：http://hotsunshine.iteye.com/blog/857485使用 javax.activation.MimetypesFileTypeMap 需要引入activation.jar这个jar包 , 他可以从下面这个网站获得http://java.sun.com/products/javabeans/glasgow/jaf.html.这个Mi
复制链接

扫一扫