java读取word带格式化,poi读取word简历(伪word格式的doc文件 )提取文本内容报错...

常规思路(利用poi对word进行解析)

word 2003: 图片不会被读取

InputStream is = new FileInputStream(new File("D:\\word\\中文简历_20160622.doc"));

WordExtractor ex = new WordExtractor(is);//is是WORD文件的InputStream

String text2003 = ex.getText();

System.out.println("2003------->"+text2003);

调试时,发现总是报异常:

7372717448279a889bf55242777233fc.png

查资料,大部分网友都说把word文件Save As后就可以解决该bug,但是这不是我想要的。下面是网友的解决方法:

2.解决思路(对伪word的文件格式分析)

利用office对该51job简历word(resume.doc)Save As 时,突然发现该word的具体格式是mht,当然还有其他方法分析伪word的具体格式。

2b2d41f069419e8828e7c7f3b27e8d98.png

上图说明51job生成的doc文件本质上是个mht文件; (而猎聘和智联生成的是htm文件)。因此,也得到一个启示:下次如果项目中需要导出word格式文件,也可用mht或htm格式来冒充,反正word也可以正常打开。

mht 百度百科 介绍:MHTML文件又称为聚合HTML文档、Web档案或单一文件网页。单个文件网页可将网站的所有元素(包括文本和图形)都保存到单个文件中。这种封装使您 可将整个网站发布为单个内嵌 MIME (MIME:通过 Internet 连接传递多媒体资源的一列标准。MIME 类型通知程序对象所包含的内容(如图形、声音或视频)的聚合HTML文档(MHTML)文件,或将整个网站作为一个电子邮件或附件发送。Internet Explorer 4.0及更高版本支持此格式。

1.拿到伪word格式,根据制定文件的文件头判断其文件类型,然后再对mht和htm格式的文件进行解析。

public class FileType {

public final static Map FILE_TYPE_MAP = new HashMap();

private FileType(){}

static{

getAllFileType(); //初始化文件类型信息

}

/**

* Discription:[getAllFileType,常见文件头信息]

*/

private static void getAllFileType()

{

FILE_TYPE_MAP.put("3c68746d6c20786d6c6e", "htm");//猎聘、智联简历.htm

FILE_TYPE_MAP.put("46726f6d3a3cd3c920cd", "mht");//51job简历.mht

}

/**

* 得到上传文件的文件头

* @param src

* @return

*/

public static String bytesToHexString(byte[] src) {

StringBuilder stringBuilder = new StringBuilder();

if (src == null || src.length <= 0) {

return null;

}

for (int i = 0; i < src.length; i++) {

int v = src[i] & 0xFF;

String hv = Integer.toHexString(v);

if (hv.length() < 2) {

stringBuilder.append(0);

}

stringBuilder.append(hv);

}

return stringBuilder.toString();

}

/**

* 根据制定文件的文件头判断其文件类型

* @param filePaht

* @return

*/

public static String getFileType(String filePaht){

String res = null;

try {

FileInputStream is = new FileInputStream(filePaht);

byte[] b = new byte[10];

is.read(b, 0, b.length);

String fileCode = bytesToHexString(b);

System.out.println(fileCode);

//这种方法在字典的头代码不够位数的时候可以用但是速度相对慢一点

Iterator keyIter = FILE_TYPE_MAP.keySet().iterator();

while(keyIter.hasNext()){

String key = keyIter.next();

if(key.toLowerCase().startsWith(fileCode.toLowerCase()) || fileCode.toLowerCase().startsWith(key.toLowerCase())){

res = FILE_TYPE_MAP.get(key);

break;

}

}

} catch (FileNotFoundException e) {

e.printStackTrace();

} catch (IOException e) {

e.printStackTrace();

}

return res;

}public static void main(String[] args) throws Exception {

String type = getFileType("D:\\word\\51job_resume.doc");

System.out.println("Except : "+type);

}

}

2.解析htm的很简单,就不过多的说了,主要是介绍下解析mht格式文件(主要方法),注意文件编码的问题

/**

* 方法说明:mht转html

* 输入参数:strMht mht文件路径; strHtml html文件路径

* 返回类型:      * /

public static void mht2html(String strMht, String strHtml) {

try {

//InputStream is = new FileInputStream(new File("D:\\word\\resume.doc"));

InputStream fis = new FileInputStream(strMht);

Session mailSession = Session.getDefaultInstance(System

.getProperties(), null);

MimeMessage msg = new MimeMessage(mailSession, fis);

Object content = msg.getContent();

if (content instanceof Multipart) {

MimeMultipart mp = (MimeMultipart) content;

MimeBodyPart bp1 = (MimeBodyPart) mp.getBodyPart(0);

String strEncodng = getEncoding(bp1);

System.out.println("strEncodng first"+strEncodng);

//修改

if (strEncodng == null) {

strEncodng = "UTF-8"; // 2012.04.23

} else {

strEncodng = strEncodng.replace("\"", "");

}

String strText = getHtmlText(bp1, strEncodng);

if (strText == null)

return;

File parent = null;

if (mp.getCount() > 1) {

parent = new File(new File(strHtml).getAbsolutePath() + ".files");

parent.mkdirs();

if (!parent.exists())

return;

}

for (int i = 1; i < mp.getCount(); ++i) {

MimeBodyPart bp = (MimeBodyPart) mp.getBodyPart(i);

String strUrl = getResourcesUrl(bp);

if (strUrl == null)

continue;

DataHandler dataHandler = bp.getDataHandler();

MimePartDataSource source = (MimePartDataSource) dataHandler

.getDataSource();

File resources = new File(parent.getAbsolutePath()

+ File.separator + getName(strUrl, i));

if (saveResourcesFile(resources, bp.getInputStream()))

strText = JHtmlClear.replace(strText, strUrl, resources

.getAbsolutePath());

}

saveHtml(strText, strHtml);

}

} catch (Exception e) {

e.printStackTrace();

}

}

等有时间了再整理下代码更新上传、下班回去咯!

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值