关于产品对象描述的思考

         
        网页信息抽取,是垂直搜索引擎领域的一项重要技术。它是利用数据挖掘、统计分析、页面结构分析等技术,从海量网页库中抽取出结构化的有用信息(称之为记录Record)以及信息之间的关系。因此,就引入了两个问题?一个是如何度量有用的信息?另外一个是信息之间的关系什么确定?我们能不能用一种知识体系来刻画或界定呢?

          前些日子, 刚好看了篇论文"Learning Object Model from Product Web Pages",我就在想我们能不能也构造出一种较为通用产品对象描述模型,并且用它来发现、定位我们所需要的信息呢?个人认为,这种产品对象描述模型,它其实是一种知识。关于知识,我们就从知识表示、知识获取、知识的推理和知识评价来谈谈产品对象描述模型吧。

       关于知识表示,可以用N元组、关系数据、框架、语义网络来表示。有一条原则是,知识表示并非一定要采用最先进、最高级的技术来表示,只要能满足实际应用,解决相应的问题,就足够了。因此,我认为产品对象描述模型,用框架来表示就行了。框架知识,人工智能课程中提到的。我记得,它是由框架名、框架槽和槽取值组成的。理由是:我们刻画一种产品,几乎都是从产品名称、产品属性和产品属性值这些角度出发的。这与基于框架表示的知识,思路完全一致。

      知识表示问题解决了,那么,现在我们如何来获取产品对象描述的知识呢?即知识获取的问题。知识获取,根据不少专家的看法,现在实用的方法,大多数是基于统计语料学和信息论的方法。当然,再细的东西,就不能再谈了。—— 怕侵权,呵呵。
   
      
      
阅读更多
想对作者说点什么? 我来说一句

没有更多推荐了,返回首页

关闭
关闭
关闭