一、解决思路
分析完html中table的结构和,发现循环读出html中的元素信息后通过判断获取的Text的值再trs.get(i).cssSelector()方法得到它的选择器的位置进行精确定位;
if(trs.get(i).text().equalsIgnoreCase("▲技能/语言")){
System.out.println("CSS选择器: " + trs.get(i).cssSelector());
}
二、代码
package Test;
import java.io.File;
import java.io.IOException;
import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
import org.jsoup.select.Elements;
import org.junit.Test;
import com.jacob.activeX.ActiveXComponent;
import com.jacob.com.Dispatch;
import com.jacob.com.Variant;
/**
* 1.用jacob. 先到官方网站上去下载:http://sourceforge.net/project/showfiles.php?group_id=109543&package_id=118368 jacob.zip
* 把jacob.jar放到项目/web-inf/lib下面。把jacob .dll放到C:\Program Files\Java\jdk1.8.0_45\bin下面。这样就算是配置完成了。
*
* 2.要求需要安装微软的Word办公软件,WPS不可以;因为它的方法是通过在后台调用office将Word转为html文件
* 需要做以下配置:Word软件打开一个word文件,另存为,找到web选项设置:找到*.mhtml将编码设置为UTF-8。要不打开的时候无法看到汉字,但是解析是没有影响
*
* 3.jsoup的API
* @author admin
*
*/
public class Word_Html {
/**
* @param docPath word文件路径及名称
* @param fileName html文件路径及名称
*/
public void word_html (String docPath,String fileName){
//创建Word对象,启动WINWORD.exe进程
ActiveXComponent app = new ActiveXComponent("Word.Application");
//设置用后台隐藏方式打开
app.setProperty("Visible", new Variant(false));
//获取操作word的document调用
Dispatch documents = app.getProperty("Documents").toDispatch();
//调用打开命令,同时传入word路径
Dispatch doc = Dispatch.call(documents, "Open", docPath).toDispatch();
//调用另外为命令,同时传入html的路径
Dispatch.invoke(doc, "SaveAs", Dispatch.Method,
new Object[] { fileName, new Variant(8) }, new int[1]);
//关闭document对象
Dispat