信息抽取
文章平均质量分 85
慕希颜
这个作者很懒,什么都没留下…
展开
-
web harvest 之初体验
现在正处于信息爆炸的时代,互联网上的信息是越来越多,所以快速省力的从网上抽取有用的信息也显得越来越重要。开源的Web-Harvest可以帮我完成类似的任务。web-harvest简介: Web-Harvest 是一个用Java 写的开源的Web 数据提取工具。它提供了一种从所需的页面上提取有用数据的方法。为了达到这个目的,你可能需要用到如XSLT,XQuery,和正则表达式等操作text/x原创 2013-04-22 18:41:23 · 1947 阅读 · 0 评论 -
web-harvest 探索之旅之自定义变量的自增
在用web-harvest从网上抓取数据的时候难免会遇到一些由于标签书写不规范等原因导致抓下来的数据格式跟我们想要的不一样的情况。(注:HTML本来就是一种语法要求不是很严格,写起来比较随意的语言) 例如:我们知道在从网页抓取数据的时候按照某一个标签得到的数据会放到一个list里面,如图: 我们以list格式查看变量的值(除此之外还可以以txt、XML、HTML等格式查看原创 2013-04-22 18:41:34 · 694 阅读 · 0 评论 -
web-harvest case语句的一点小总结
前几天在抓取数据的时候遇上了一个字符串比较的问题,这里聊一聊。 首先要了解Web-Harvest 产生的数据以三种类型来呈现:text,binary 和list. 那么看一下下面的XML代码: 这段代码是用来判断h是否为0。就这么一小段代码把我坑苦了啊,由于帮助文档写的不全面,网上相关的资料也不多,期间尝试了各种方法,像: ....最终原因归结为,首先原创 2013-04-22 18:41:32 · 864 阅读 · 0 评论