爬虫webharvest
nnhym
这个作者很懒,什么都没留下…
展开
-
[Web-Harvest数据采集之一]WebHarvest基础-配置文件分析
Web-Harvest 是一个用Java 写的开源的Web 数据抓取工具。在使用Web-Harvest 中可能需要用到如XPath,XQuery,和正则表达式等操作text/xml 的相关技术。Web-Harvest 主要着眼于目前仍占大多数的基于HMLT/XML 的页面内容。另一方面,它也能通过写自己的Java 方法来轻易扩展其提取能力。 Web-Harvest 官方网站(http://web原创 2011-12-11 16:46:41 · 2022 阅读 · 0 评论 -
[Web-Harvest数据采集之二]Web-Harvest基础-抓取java代码分析
Web-Harvest中负责数据抓取的java代码,还是非常简单的,只有简单的几行代码,实际上整个抓取的复杂过程都被已经Web-Harvest封装起来,这极大地方便了开发人员运用Web-Harvest进行数据采集。 /*获取配置文件*/ ScraperConfiguration config = new ScraperConfiguration("./360buy/category/360bu原创 2011-12-14 17:02:39 · 1207 阅读 · 3 评论