模板方式是事先对特定的网页进行配置模板,抽取模板中设置好的需要的信息,可以针对有限个网站的信息进行精确的采集。
特点:简单、精确、技术难度低、方便快速部署。
缺点:需要针对每一个信息源的网站模板进行单独的设定在信息源多样性的情况下维护量巨大是不可完成的维护量。所以这种方式适合少量信息源的信息处理,不是搜索引擎级的应用,很难满足用户对查全率的需求。
网页库结构化信息抽取是采用页面结构分析与智能节点分析转换的方法,自动抽取结构化的数据。
特点:可对任意的正常网页进行抽取,完全自动化,不用对具体网站事先生成模板,对每个网页自动实时得生成抽取规则,完全不需要人工干预。智能抽取准确率高,不是机械的匹配,采用智能分析技术,准确率能达到98%以上。能保证较快处理速度,由于采用页面的智能分析技术,先去除了垃圾块,降低分析的压力,是处理速度大大提高。通用性较好,易于维护,只需设定参数、配置相应的特征就能改进相应的抽取性能;一般的非专业人员经过简单培训就能维护。
缺点:技术难度高,前期研发成本高,周期长。适合网页库级别结构化数据采集和搜索的高端应用。
发表于 @ 2006年08月28日 10:28:00 | 评论( loading... ) | 举报| 收藏