产品信息抽取

    Internet上充斥着大量的网上商店和各种各样产品信息,能够准确自动的抽取这些网络上的产品信息可以服务于大量的应用程序,例如:为垂直搜索引擎提供结构化得检索结果或者为提供同类产品之间对应指标之间的比较

 

googlesquared

图一:google squared提供结构化得检索结果

cmpshopping

图二:同类产品之间的比较购物网站

 

    但是这些包含产品信息的网页往往分布于大量的不同网站中,这些不同的网站之间网页结构迥异,利用传统的模板相关的方法抽取产品信息往往代价较大。最近对于模板无关的网页信息抽取方法的研究逐渐成为热点,诸多的研究说明无模板的抽取方法是可行和有效的。为此我们构建了一个原型系统用于抽取网络上的产品属性,该系统主要利用了产品属性的一些模板无关的特征,比如文本内容特征,树的编辑距离,视觉特征等等。首先找到描述页面中的描述产品信息的 block ,然后在进一步找到该 block 中的属性名和属性值。

ourres

图三:实验结果(页面的的属性名称和值被{name}和{value}标签标记出来)

 

(wubo@software.ict.ac.cn)


 

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值