web-harvest中的xpath抽取规则配置实例

最新推荐文章于 2021-02-28 00:08:04 发布

iteye_9434

最新推荐文章于 2021-02-28 00:08:04 发布

阅读量129

点赞数

分类专栏： java 文章标签： ScraperConfiguration Scraper

本文链接：https://blog.csdn.net/iteye_9434/article/details/82480125

版权

java 专栏收录该内容

53 篇文章 0 订阅

订阅专栏

文章来源：[url]http://blog.sina.com.cn/s/blog_87e88aac01010zf1.html[/url]
虽说很早以前听说过web-harvest 这个东西，但是没有真正的花太多的功夫去研究它，但在最近静下心来去研究一番，才觉得这个东西确实是很方便和强大！大概而言，就是：

1.构建抽取规则简单方便强大

2.可以通过一个xml文件进行规则和抽取逻辑的配置

3.可以在配置文件中进行相关的逻辑判断，很好的支持java语言，当然这要归功于beanshell

4.最大的方便在于，写好程序后，基本就不用修改，每次写一个配置文件就行了！

具体是怎么做的了，这需要通过在java程序中进行调用，而不能依靠web-harvest本身的GUI界面来进行，但官方的文档就简单的提供了几行代码，剩下的就是省略号了，扔下一大堆东西需要自己去摸索，不过还好啦，通过阅读源码和程序的说明，基本上弄懂了，如何在程序层面利用web- harvest去抽取信息，给个简单的示例，大家就知道这个web-harvest就有多么的方便了！不算是一个完整的java程序，但是一个开发的基本的流程，中间有些变量需要改变

private ScraperConfiguration config;
private Scraper scraper;

config = new ScraperConfiguration(context.getRuleConfig());//配置文件的路径
scraper = new Scraper(config, context.getWorkDir());//工作的目录
scraper.addVariableToContext("pagecontent",new String(this.pageContent));//通过程序的方式，将java变量赋值给配置文件中的变量，呵呵，方便吧！注意要new Sting（）下
scraper.addVariableToContext("linkurl",new String(""));
scraper.setDebug(false);
scraper.execute();//真正的开始执行

配置文件：

<?xml version="1.0" encoding="UTF-8"?>

<config charset="gb2312">



<var name="linkurl"></var>


<var-def name="isproductlink">
<script return="islinkproduct"><![CDATA[
islinkproduct=linkurl.toString().matches("http://www.qianzhihe.com.cn/Product/[0-9]+.htm");
]]></script>
</var-def>


<var-def name="isproductlist">
<script return="islistproduct"><![CDATA[
islistproduct=false;
if(linkurl.toString().contains("tsort.asp") || linkurl.toString().contains("pinpai.asp")){
islistproduct=true;
}
]]></script>
</var-def>


<var-def name="xmlcontent">
<html-to-xml specialentities="false">
<var name="pagecontent"></var>
</html-to-xml>
</var-def>


<empty>
<var-def name="name">
<xpath expression="data(//td[@class='vtitle'])">
<var name="xmlcontent"></var>
</xpath>
</var-def>
</empty>


<empty>
<var-def name="rawprice">
<xpath expression="data((//font[@color='#D03430'])[2])">
<var name="xmlcontent"></var>
</xpath>
</var-def>
</empty>


<empty>
<var-def name="price">
<script return="cleanprice"><![CDATA[
cleanprice=rawprice.toString().replaceAll("￥","").replaceAll(",","");
]]></script>
</var-def>
</empty>


<empty>
<var-def name="rawsort">
<xpath expression="data(//td[@class='sort'])">
<var name="xmlcontent"></var>
</xpath>
</var-def>
</empty>


<empty>
<var-def name="sort">
<script return="cleansort"><![CDATA[
cleansort=rawsort.toString().replaceAll(">>","|").replaceAll(",","");
]]></script>
</var-def>
</empty>


<empty>
<var-def name="digest">
<xpath expression="data(//div[@id='tab1_1'])">
<var name="xmlcontent"></var>
</xpath>
</var-def>
</empty>


<empty>
<var-def name="body">
<xpath expression="data(//body)">
<var name="xmlcontent"></var>
</xpath>
</var-def>
</empty>
</config>

至于xpath的详细语法，脚本语言的编写还是请各位去仔细查下资料看看，一下子也很难讲述完整！可以参考：www.w3school.com.cn

到后来怎么获取数据呢？请看下面的简单代码：

就是通过scraper去获取配置文件中的变量，并转化为java中的变量类型就行可以了

Variable title = (Variable) scraper.getContext().get("name");
return title.toString();

在使用完一个scraper之后，要记得释放一些变量，这个是通过scraper.dispose()方法来释放一些变量，要不然会存在一些问题，使用的内存越来越多，最后outofmemory，呵呵！

对于中文的支持也不错，自己在使用过程中没有遇到过乱码，关键是要合理选择好字符集！

iteye_9434

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
web-harvest中的xpath抽取规则配置实例

文章来源：[url]http://blog.sina.com.cn/s/blog_87e88aac01010zf1.html[/url]虽说很早以前听说过web-harvest 这个东西，但是没有真正的花太多的功夫去研究它，但在最近静下心来去研究一番，才觉得这个东西确实是很方便和强大！大概而言，就是： 1.构建抽取规则简单方便强大 2.可以通过一个xml文件进行规...
复制链接

扫一扫

专栏目录