Java开发中解析word文档录入数据库——后续

一、解决思路

       分析完html中table的结构和,发现循环读出html中的元素信息后通过判断获取的Text的值再trs.get(i).cssSelector()方法得到它的选择器的位置进行精确定位;

if(trs.get(i).text().equalsIgnoreCase("▲技能/语言")){
                    System.out.println("CSS选择器: " + trs.get(i).cssSelector());

}

二、代码

package Test;

import java.io.File;
import java.io.IOException;

import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
import org.jsoup.select.Elements;
import org.junit.Test;

import com.jacob.activeX.ActiveXComponent;
import com.jacob.com.Dispatch;
import com.jacob.com.Variant;

/**
 * 1.用jacob. 先到官方网站上去下载:http://sourceforge.net/project/showfiles.php?group_id=109543&package_id=118368 jacob.zip
 * 把jacob.jar放到项目/web-inf/lib下面。把jacob .dll放到C:\Program Files\Java\jdk1.8.0_45\bin下面。这样就算是配置完成了。 
 * 
 * 2.要求需要安装微软的Word办公软件,WPS不可以;因为它的方法是通过在后台调用office将Word转为html文件
 * 	需要做以下配置:Word软件打开一个word文件,另存为,找到web选项设置:找到*.mhtml将编码设置为UTF-8。要不打开的时候无法看到汉字,但是解析是没有影响
 * 
 * 3.jsoup的API
 * @author admin
 *
 */
public class Word_Html {
	
	/**
	 * @param docPath		word文件路径及名称
	 * @param fileName		html文件路径及名称
	 */
	public void word_html (String docPath,String fileName){

		//创建Word对象,启动WINWORD.exe进程
		ActiveXComponent app = new ActiveXComponent("Word.Application");
		//设置用后台隐藏方式打开
		app.setProperty("Visible", new Variant(false));
		//获取操作word的document调用
		Dispatch documents = app.getProperty("Documents").toDispatch();
		//调用打开命令,同时传入word路径
		Dispatch doc = Dispatch.call(documents, "Open", docPath).toDispatch();
		//调用另外为命令,同时传入html的路径
		Dispatch.invoke(doc, "SaveAs", Dispatch.Method, 
			new Object[] { fileName, new Variant(8) }, new int[1]);
		//关闭document对象
		Dispat
  • 0
    点赞
  • 7
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值