Tika提取txt文档内容，以及乱码处理

最新推荐文章于 2025-03-14 16:49:49 发布

Wheat_Liu

最新推荐文章于 2025-03-14 16:49:49 发布

阅读量3.8k

点赞数 2

分类专栏： Java第三方依赖

本文链接：https://blog.csdn.net/weixin_39841589/article/details/85333906

版权

Java第三方依赖专栏收录该内容

12 篇文章

订阅专栏

本文详细解析了使用Tika从文件中提取文本时出现乱码的原因，并提供了解决方案。通过检测文件编码并适当转换，确保提取的内容正确无误。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

使用IO流导致数据乱码的同学也可以借鉴一下

老规矩先上代码：

/**
 * @author FastKing
 * @version 1.0
 * @date 2018/11/29 9:11
 **/
public class TikaTest {
	public static void main(String[] args) {
		try {
			FileInputStream is = new FileInputStream(new File("E:\\账号密码.txt"));
			BodyContentHandler bodyContentHandler = new BodyContentHandler();
			//获取文件编码格式
			Charset charset = new AutoDetectReader(is).getCharset();
			String encodeName = charset.name();
			System.out.println(encodeName);
			//获取txt文档内容，乱码处理
			is.reset();
			new TXTParser().parse(is, bodyContentHandler, new Metadata(), new ParseContext());
			System.out.println(charset.contains(Charset.forName("UTF-8")) ? bodyContentHandler.toString() : new String(bodyContentHandler.toString().getBytes(encodeName)));
		} catch (IOException | TikaException | SAXException e) {
			e.printStackTrace();
		}
	}
}

如果单纯的只是想提取文本内容，很多博主都写了对应的入门demo，这里我主要说一下乱码的问题，以txt提取内容为例：

看了一下源码：

public void parse(InputStream stream, ContentHandler handler, Metadata metadata, ParseContext context) throws IOException, SAXException, TikaException {
        AutoDetectReader reader = new AutoDetectReader(new CloseShieldInputStream(stream), metadata, this.getEncodingDetector(context));
        Throwable var6 = null;

        try {
            String incomingMime = metadata.get("Content-Type");
            MediaType mediaType = MediaType.TEXT_PLAIN;
            if (incomingMime != null) {
                MediaType tmpMediaType = MediaType.parse(incomingMime);
                if (tmpMediaType != null) {
                    mediaType = tmpMediaType;
                }
            }

            Charset charset = reader.getCharset();
            MediaType type = new MediaType(mediaType, charset);
            metadata.set("Content-Type", type.toString());
            metadata.set("Content-Encoding", charset.name());
            XHTMLContentHandler xhtml = new XHTMLContentHandler(handler, metadata);
            xhtml.startDocument();
            xhtml.startElement("p");
            char[] buffer = new char[4096];

            for(int n = reader.read(buffer); n != -1; n = reader.read(buffer)) {
                xhtml.characters(buffer, 0, n);
            }

            xhtml.endElement("p");
            xhtml.endDocument();
        } catch (Throwable var21) {
            var6 = var21;
            throw var21;
        } finally {
            if (reader != null) {
                if (var6 != null) {
                    try {
                        reader.close();
                    } catch (Throwable var20) {
                        var6.addSuppressed(var20);
                    }
                } else {
                    reader.close();
                }
            }

        }
    }

在tika执行parse的时候，会先使用AutoDetectReader中的getEncodingDetector，猜测这和java中的Reader一样，都是以系统默认编码来读取输入流。

那发生乱码的原因也就很明显了，当你源文件的编码格式不能被你系统编码格式正确转码的时候，就会产生乱码。

举个例子，比如说你源文件的编码格式为ISO-8859-1，而系统编码格式为UTF-8，读取出来的数据就会乱码；而如果你源文件的编码格式为UTF-16，系统编码格式为UTF-8，读取出来的数据就不会乱码。再形象一点来说，ISO-8859-1和UTF-8不是一家子，而UTF-16和UTF-8是一家子。

既然清楚了发生乱码的原因，再说一下解题思路，既然在parse的时候无法指定读取文件流的编码格式，那么我们就要在parse之后对产生乱码的字符串进行转码。

首先判断是否会产生乱码，在java.nio中，Charset有个contains的方法，看了一下官方文档：

意思大概就是，如果一个字符被两种编码格式编码后的字符相同，则返回true，说明这两种编码格式存在包含关系

系统编码格式是本身就知道的（大部分开发者都选用UTF-8），那原文件的编码格式如何获取呢，tika中提供了这样的方法：

Charset charset = new AutoDetectReader(is).getCharset();

在这里有一个坑需要注意一下，tika源码中这样写道：

private AutoDetectReader(InputStream stream, Charset charset) throws IOException {
        super(new InputStreamReader(stream, charset));
        this.charset = charset;
        this.mark(1);
        if (this.read() != 65279) {
            this.reset();
        }

    }

说明tika在判断源文件编码的时候会先使用输入流读一下，而输入流在执行读操作的时候，会把流的头标记移动到读操作结束的位置，这样就导致数据丢失，我们得在tika执行parse之前reset一下，让输入流的头标记回到最开始的位置。