如何用java代码获取一个文件_如何利用java实现获取一个文件的编码

如何利用java实现获取一个文件的编码

发布时间:2020-11-09 15:34:10

来源:亿速云

阅读:97

作者:Leah

如何利用java实现获取一个文件的编码?针对这个问题,这篇文章详细介绍了相对应的分析和解答,希望可以帮助更多想解决这个问题的小伙伴找到更简单易行的方法。

maven引入获取编码的jar

com.ibm.icu

icu4j

67.1

获取文件编码

package com.lovnx.note.util;

import com.ibm.icu.text.CharsetDetector;

import com.ibm.icu.text.CharsetMatch;

import org.jsoup.Jsoup;

import org.jsoup.nodes.Document;

import org.jsoup.select.Elements;

import java.io.IOException;

import java.net.URL;

import java.nio.file.Files;

import java.nio.file.Path;

import java.nio.file.Paths;

/**

* @author @256g的胃

* @ClassName HtmlParse

* @Description

* @Date 15:32 2020/7/9

**/

public class HtmlParse {

public static String getEncode(String filePath) throws IOException {

Path path = Paths.get(filePath);

byte[] data = Files.readAllBytes(path);

CharsetDetector detector = new CharsetDetector();

detector.setText(data);

CharsetMatch match = detector.detect();

String encoding = match.getName();

System.out.println("The Content in " + match.getName());

return encoding;

}

public static void main(String[] args) throws Exception {

System.out.println(HtmlParse.getEncode("/Users/cxt/Downloads/test.html"));

}

}

上面获取文件编码是为了在服务器根据文件流下载文件时防止文件乱码直接指定编码格式,然后再根据下载下来的文件识别纯文本Document doc = Jsoup.parse("读取的文本字符串,此处应该是带html标签的");

String text = doc.text();

jsoup也支持 直接指定文件的形式去获取纯文本

参考 https://jsoup.org/

补充知识:java 解析html/读取html内容

jsoup

String 转化1、Document doc = Jsoup.parse(html);

例如:

String html = "

First parse"

+ "

Parsed HTML into a doc.

";

Document doc = Jsoup.parse(html);

System.out.println(doc.text()); ;

常用api

2、获取节点文本:Document.text();

关于如何利用java实现获取一个文件的编码问题的解答就分享到这里了,希望以上内容可以对大家有一定的帮助,如果你还有很多疑惑没有解开,可以关注亿速云行业资讯频道了解更多相关知识。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值