首先导入依赖:
<dependency>
<groupId>cn.wanghaomiao</groupId>
<artifactId>JsoupXpath</artifactId>
<version>2.2</version>
</dependency>
这是xpath的基本形式,自己可以根据不同的网页,加上合适的条件。
这个红箭头是网页copy的copy的xpath的内容,替换这个地方就行。
按F12到网页的调试界面,找到对应内容,右击对应代码处,选择copy,copy xpath。
这是我代码的样例,可以按照这个形式进行修改。
public static String rules10(String html){
String result = "";
String xpath="//*[@id=\"detail\"]/div[2]/div/div[2]/div/div[3]/div/p[37]/span/text()[1]";
JXDocument jxDocument = new JXDocument(html);
List<Object> rs = jxDocument.sel(xpath);
for (Object o:rs){
if (o instanceof Element){
int index = ((Element) o).siblingIndex();
System.out.println(index);
}
result = o.toString();
}
if(result.contains(":")){
result=result;
result = Pattern.compile("[^\u4e00-\u9fa5||、]").matcher(result).replaceAll("");
result = Pattern.compile("[项目联系电话人邮箱方式代理负责转]").matcher(result).replaceAll("");
if(result.length()>3){
result ="";
}
}else{
result="";
}
return result;
}