Tika是一个可以解析各种文件的jar文件,他可以解析word、xlsx、pdf、html、xml、class、jar、text、图像等文件,解析出来的东西不仅包括文件的内容,还有文件的各种属性信息。
File file = new File(fileName);
//parse method parameters,parse various files
Parser parser = new AutoDetectParser();
BodyContentHandler handler = new BodyContentHandler();
Metadata metadata = new Metadata();
FileInputStream inputstream = new FileInputStream(file);
ParseContext context = new ParseContext();
//parsing the file parser.parse(inputstream, handler, metadata, context);
//the length of file content