MetaStudio产品介绍

MetaStudio是描述Web页面信息结构的工具,协助用户对目标网页的信息结构进行建模,为用户验证信息结构(模型)的正确性,并为建立正确的信息模型自动计算信息提取(网页抓取/抽取)规则,产生各种信息提取指令文件,供信息提取引擎DataScraper使用。

MetaStudio产品在MetaCamp服务器配合下才能发挥出最大的效能,虽然MetaStudio可以独立运行,但是将失去在线管理信息结构的功能。组网方法请参照 MetaSeeker的典型组网

MetaStudio是信息提取(网页抓取/抽取)工具包MetaSeeker的四个工具软件其中一个。



特点

  • 对Web技术是透明的,无论目标网站是用什么技术建立的,如html, php, jsp, asp, aspx, xhtml等等,MetaSeeker都一视同仁。
  • 适应性强,能够提取各种论坛、博客、黄页和商业名录信息,免除用户为每一个网站甚至每一个频道定制信息提取软件。
  • 免编程定义信息提取(网页抓取/抽取)规则,用户只需操作GUI界面,由系统自动生成各种信息提取规则和指令文件。
  • 使用方便,操作直观,不包括用户理解目标页面语义结构花费的时间,用户定义信息提取(网页抓取/抽取)规则花费的时间是分钟级的。
  • 验证手段完善,可以即时发现当前定义的信息结构有什么不足、信息提取规则是否准确等,定义过程和验证过程可以穿插进行,很快地定义出准确的信息结构。
  • 管理工具功能强大,用户可以直观地跟踪信息结构定义的状态、进度和结果。


资源

  1. 如果您想获得安装指导,请参阅MetaSeeker安装手册
  2. 如果您想了解产品的基本操作方法,请参阅MetaStudio用户手册
  3. 如果您想体验提取产品列表或者黄页信息的过程,请跟随MetaSeeker使用实例1使用实例2的步骤;
  4. 如果您想深入了解产品技术,请参阅MetaSeeker技术手册

Comments

xpath的节点筛选

好像xpath只能选择整个节点,而不能只选择一个节点下面的一部分子节点,例如有一个table,"\td[position()<3]"这样的语句只能返回第一个td节点而不是前两个节点,为什么?

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值