网页信息抽取,是垂直搜索引擎领域的一项重要技术。它是利用数据挖掘、统计分析、页面结构分析等技术,从海量网页库中抽取出结构化的有用信息(称之为记录Record)以及信息之间的关系。因此,就引入了两个问题?一个是如何度量有用的信息?另外一个是信息之间的关系什么确定?我们能不能用一种知识体系来刻画或界定呢?
关于知识表示,可以用N元组、关系数据、框架、语义网络来表示。有一条原则是,知识表示并非一定要采用最先进、最高级的技术来表示,只要能满足实际应用,解决相应的问题,就足够了。因此,我认为产品对象描述模型,用框架来表示就行了。框架知识,人工智能课程中提到的。我记得,它是由框架名、框架槽和槽取值组成的。理由是:我们刻画一种产品,几乎都是从产品名称、产品属性和产品属性值这些角度出发的。这与基于框架表示的知识,思路完全一致。
知识表示问题解决了,那么,现在我们如何来获取产品对象描述的知识呢?即知识获取的问题。知识获取,根据不少专家的看法,现在实用的方法,大多数是基于统计语料学和信息论的方法。当然,再细的东西,就不能再谈了。—— 怕侵权,呵呵。