使用IO流导致数据乱码的同学也可以借鉴一下
老规矩先上代码:
/**
* @author FastKing
* @version 1.0
* @date 2018/11/29 9:11
**/
public class TikaTest {
public static void main(String[] args) {
try {
FileInputStream is = new FileInputStream(new File("E:\\账号密码.txt"));
BodyContentHandler bodyContentHandler = new BodyContentHandler();
//获取文件编码格式
Charset charset = new AutoDetectReader(is).getCharset();
String encodeName = charset.name();
System.out.println(encodeName);
//获取txt文档内容,乱码处理
is.reset();
new TXTParser().parse(is, bodyContentHandler, new Metadata(), new ParseContext());
System.out.println(charset.contains(Charset.forName("UTF-8")) ? bodyContentHandler.toString() : new String(bodyContentHandler.toString().getBytes(encodeName)));
} catch (IOException | TikaException | SAXException e) {
e.printStackTrace();
}
}
}
如果单纯的只是想提取文本内容,很多博主都写了对应的入门demo,这里我主要说一下乱码的问题,以txt提取内容为例:
看了一下源码:
public void parse(InputStream stream, ContentHandler handler, Metadata metadata, ParseContext context) throws IOException, SAXException, TikaException {
AutoDetectReader reader = new AutoDetectReader(new CloseShieldInputStream(stream), metadata, this.getEncodingDetector(context));
Throwable var6 = null;
try {
String incomingMime = metadata.get("Content-Type");
MediaType mediaType = MediaType.TEXT_PLAIN;
if (incomingMime != null) {
MediaType tmpMediaType = MediaType.parse(incomingMime);
if (tmpMediaType != null) {
mediaType = tmpMediaType;
}
}
Charset charset = reader.getCharset();
MediaType type = new MediaType(mediaType, charset);
metadata.set("Content-Type", type.toString());
metadata.set("Content-Encoding", charset.name());
XHTMLContentHandler xhtml = new XHTMLContentHandler(handler, metadata);
xhtml.startDocument();
xhtml.startElement("p");
char[] buffer = new char[4096];
for(int n = reader.read(buffer); n != -1; n = reader.read(buffer)) {
xhtml.characters(buffer, 0, n);
}
xhtml.endElement("p");
xhtml.endDocument();
} catch (Throwable var21) {
var6 = var21;
throw var21;
} finally {
if (reader != null) {
if (var6 != null) {
try {
reader.close();
} catch (Throwable var20) {
var6.addSuppressed(var20);
}
} else {
reader.close();
}
}
}
}
在tika执行parse的时候,会先使用AutoDetectReader中的getEncodingDetector,猜测这和java中的Reader一样,都是以系统默认编码来读取输入流。
那发生乱码的原因也就很明显了,当你源文件的编码格式不能被你系统编码格式正确转码的时候,就会产生乱码。
举个例子,比如说你源文件的编码格式为ISO-8859-1,而系统编码格式为UTF-8,读取出来的数据就会乱码;而如果你源文件的编码格式为UTF-16,系统编码格式为UTF-8,读取出来的数据就不会乱码。再形象一点来说,ISO-8859-1和UTF-8不是一家子,而UTF-16和UTF-8是一家子。
既然清楚了发生乱码的原因,再说一下解题思路,既然在parse的时候无法指定读取文件流的编码格式,那么我们就要在parse之后对产生乱码的字符串进行转码。
首先判断是否会产生乱码,在java.nio中,Charset有个contains的方法,看了一下官方文档:
意思大概就是,如果一个字符被两种编码格式编码后的字符相同,则返回true,说明这两种编码格式存在包含关系
系统编码格式是本身就知道的(大部分开发者都选用UTF-8),那原文件的编码格式如何获取呢,tika中提供了这样的方法:
Charset charset = new AutoDetectReader(is).getCharset();
在这里有一个坑需要注意一下,tika源码中这样写道:
private AutoDetectReader(InputStream stream, Charset charset) throws IOException {
super(new InputStreamReader(stream, charset));
this.charset = charset;
this.mark(1);
if (this.read() != 65279) {
this.reset();
}
}
说明tika在判断源文件编码的时候会先使用输入流读一下,而输入流在执行读操作的时候,会把流的头标记移动到读操作结束的位置,这样就导致数据丢失,我们得在tika执行parse之前reset一下,让输入流的头标记回到最开始的位置。