java获取文件编码,jsoup获取html纯文本操作,文件,文本,给大家,希望能,然后再
java获取文件编码,jsoup获取html纯文本操作
易采站长站,站长之家为您整理了java获取文件编码,jsoup获取html纯文本操作的相关内容。
maven引入获取编码的jar
com.ibm.icu
icu4j
67.1
获取文件编码
package com.lovnx.note.util;
import com.ibm.icu.text.CharsetDetector;
import com.ibm.icu.text.CharsetMatch;
import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
import org.jsoup.select.Elements;
import java.io.IOException;
import java.net.URL;
import java.nio.file.Files;
import java.nio.file.Path;
import java.nio.file.Paths;
/**
* @author @256g的胃
* @ClassName HtmlParse
* @Description
* @Date 15:32 2020/7/9
**/
public class HtmlParse {
public static String getEncode(String filePath) throws IOException {
Path path = Paths.get(filePath);
byte[] data = Files.readAllBytes(path);
CharsetDetector detector = new CharsetDetector();
detector.setText(data);
CharsetMatch match = detector.detect();
String encoding = match.getName();
System.out.println("The Content in " + match.getName());
return encoding;
}
public static void main(String[] args) throws Exception {
System.out.println(HtmlParse.getEncode("/Users/cxt/Downloads/test.html"));
}
}
上面获取文件编码是为了在服务器根据文件流下载文件时防止文件乱码直接指定编码格式,然后再根据下载下来的文件识别纯文本
Document doc = Jsoup.parse("读取的文本字符串,此处应该是带html标签的");
String text = doc.text();
jsoup也支持 直接指定文件的形式去获取纯文本
参考 https://jsoup.org/
补充知识:java 解析html/读取html内容
jsoup
String 转化
1、Document doc = Jsoup.parse(html);
例如:
String html = "
First parse"+ "
Parsed HTML into a doc.
";Document doc = Jsoup.parse(html);
System.out.println(doc.text()); ;
常用api
2、获取节点文本:Document.text();
以上这篇java获取文件编码,jsoup获取html纯文本操作就是小编分享给大家的全部内容了,希望能给大家一个参考,也希望大家多多支持易采站长站。以上就是关于对java获取文件编码,jsoup获取html纯文本操作的详细介绍。欢迎大家对java获取文件编码,jsoup获取html纯文本操作内容提出宝贵意见