java获取html的title_java获取文件编码,jsoup获取html纯文本操作

最新推荐文章于 2021-06-20 07:16:33 发布

清风碎刀

最新推荐文章于 2021-06-20 07:16:33 发布

阅读量276

点赞数

文章标签： java获取html的title

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_35703897/article/details/114950867

版权

java获取文件编码,jsoup获取html纯文本操作,文件,文本,给大家,希望能,然后再

java获取文件编码,jsoup获取html纯文本操作

易采站长站，站长之家为您整理了java获取文件编码,jsoup获取html纯文本操作的相关内容。

maven引入获取编码的jar

com.ibm.icu

icu4j

67.1

获取文件编码

package com.lovnx.note.util;

import com.ibm.icu.text.CharsetDetector;

import com.ibm.icu.text.CharsetMatch;

import org.jsoup.Jsoup;

import org.jsoup.nodes.Document;

import org.jsoup.select.Elements;

import java.io.IOException;

import java.net.URL;

import java.nio.file.Files;

import java.nio.file.Path;

import java.nio.file.Paths;

/**

* @author @256g的胃

* @ClassName HtmlParse

* @Description

* @Date 15:32 2020/7/9

**/

public class HtmlParse {

public static String getEncode(String filePath) throws IOException {

Path path = Paths.get(filePath);

byte[] data = Files.readAllBytes(path);

CharsetDetector detector = new CharsetDetector();

detector.setText(data);

CharsetMatch match = detector.detect();

String encoding = match.getName();

System.out.println("The Content in " + match.getName());

return encoding;

}

public static void main(String[] args) throws Exception {

System.out.println(HtmlParse.getEncode("/Users/cxt/Downloads/test.html"));

}

}

上面获取文件编码是为了在服务器根据文件流下载文件时防止文件乱码直接指定编码格式，然后再根据下载下来的文件识别纯文本

Document doc = Jsoup.parse("读取的文本字符串，此处应该是带html标签的");

String text = doc.text();

jsoup也支持直接指定文件的形式去获取纯文本

参考 https://jsoup.org/

补充知识：java 解析html/读取html内容

jsoup

String 转化

1、Document doc = Jsoup.parse(html);

例如：

String html = "

First parse"

+ "

Parsed HTML into a doc.

";

Document doc = Jsoup.parse(html);

System.out.println(doc.text()); ;

常用api

2、获取节点文本：Document.text();

以上这篇java获取文件编码,jsoup获取html纯文本操作就是小编分享给大家的全部内容了，希望能给大家一个参考，也希望大家多多支持易采站长站。以上就是关于对java获取文件编码,jsoup获取html纯文本操作的详细介绍。欢迎大家对java获取文件编码,jsoup获取html纯文本操作内容提出宝贵意见

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
java获取html的title_java获取文件编码,jsoup获取html纯文本操作

java获取文件编码,jsoup获取html纯文本操作,文件,文本,给大家,希望能,然后再java获取文件编码,jsoup获取html纯文本操作易采站长站，站长之家为您整理了java获取文件编码,jsoup获取html纯文本操作的相关内容。maven引入获取编码的jarcom.ibm.icuicu4j67.1获取文件编码package com.lovnx.note.util;import com....
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。