java html 转成mht_java工具类mht转html格式文件 及简单的HTML解析

这是一个Java工具类,用于将MHT文件转换为HTML格式,并使用Jsoup库进行HTML解析。它包括从HTML文件中提取特定标签值的方法,例如姓名和性别,以及解析教育经历。类中提供了Mht2HtmlUtil方法,如mht2html、findResultValue和findResultValueToArray,用于处理文件转换和内容提取。
摘要由CSDN通过智能技术生成

packagecom.szy.project.utils;importjava.io.BufferedInputStream;importjava.io.BufferedOutputStream;importjava.io.BufferedReader;importjava.io.DataOutputStream;importjava.io.File;importjava.io.FileInputStream;importjava.io.FileOutputStream;importjava.io.IOException;importjava.io.InputStream;importjava.io.InputStreamReader;importjava.io.OutputStreamWriter;importjava.io.Reader;importjava.io.Writer;importjava.util.Enumeration;importjavax.mail.MessagingException;importjavax.mail.Multipart;importjavax.mail.Session;importjavax.mail.internet.MimeBodyPart;importjavax.mail.internet.MimeMessage;importjavax.mail.internet.MimeMultipart;importorg.jsoup.Jsoup;importorg.jsoup.nodes.Document;/*** 转换工具 ---------- 需要引入第三方依赖 javaMail转换格式 和 jsoup解析HTML

* jsoup 文档地址 :http://www.open-open.com/jsoup/parse-document-from-string.htm* 将mht 转化成 HTML

*@author隔壁老王

**/

public classMht2HtmlUtil {public static void main(String[] args) throwsIOException {/*** 转换*/

//mht2html("f:\\job_111.mht", "f:\\test.htm");

/*** 获取姓名和性别*/String nameAndSex= Mht2HtmlUtil.findResultValue("f:\\test.htm", "li", "info_name");

String tmpString= nameAndSex.replaceAll("(?i)[^a-zA-Z0-9\u4E00-\u9FA5]", "");//去掉所有中英文符号

char[] carr =tmpString.toCharArray();for (int i = 0; i < tmpString.length(); i++) {if (carr[i] < 0xFF) {

carr[i]= ' ';//过滤掉非汉字内容

}

}

System.out.println(tmpString.substring(0, tmpString.length()-1)); //姓名

System.out.println(tmpString.substring(tmpString.length()-1)); //性别

/*** 获取教育经历*/File htmlf=new File("f:\\test.htm");

Document doc=Jsoup.parse(htmlf, "UTF-8");

String ss=doc.body().toString();//class等于masthead的li标签

Object[] aa= doc.select("div.detaile_box").toArray();for (int i = 0; i < aa.length; i++) {if(i==3){

String strtext=aa[i].toString();

Document docs=Jsoup.parse(strtext);

Object[] bb= docs.select("b.edu_main_sch").toArray();for (int j = 0; j < bb.length; j++) {

String tt=bb[j].toString();

Document doct=Jsoup.parse(tt);

String result= doct.select("b.edu_main_sch").text();

String a=

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值