第五章 商用系统简介

第五章         商用系统简介

5.1.        应用范围...

5.2.        商用系统...

5.2.1.     Junglee.

5.2.2.     Jango.

5.2.3.     MySimon.

5.3.        小结...

因特网上的海量信息是世界各地的用户都能获得的,因此,能帮助完成信息自动收集和分析的代理程序是非常有用的。具有如此技术的应用程序有很多。

本章第1节介绍了信息抽取应用系统已被试用的几个领域。第2节介绍了首批商用系统。

5.1.          应用范围

网上有很多有用的信息,例如电话黄页、产品目录、股票行情、天气预报等。这些信息可能不是由一个网上数据库提供,而是分散在多个数据库中。这些数据库可供用户输入关键字等查询条件进行搜索,然后自动生成网页,把结果显示出来。

一般说来,把来源分散的数据集中在一起是非常有用的。但是,以浏览器为界面的浏览方式不直接支持把不同网站的数据集成起来,因此,信息抽取工具便有了用武之地。

前一章节介绍的系统对几种不同的网页信息进行了处理。下面重温一下其中几类:

l       产品描述

ShopBot专为此设计[1718],用于比价购物。所抽取的产品信息按价格排序。

l       餐厅指引

STALKER被用来抽取不同网站上的餐厅信息,如餐厅名称、菜肴种类、价格、烹调方法、地址、电话和评价。[4243]

l       讲座通知

SRV试用在讲座信息的抽取任务上,把讲者、地点、时间等信息抽取出来。

l       招聘广告

RAPIERWHISK被用于招聘广告的信息抽取。需抽取的信息点包括职位名称、工资、地点等。

l       人事更迭公告

这项任务需要处理自由式文本,属于传统的信息抽取任务。WHISK曾被实验从一堆华尔街金融杂志的文章中分析出公司管理层的人事更迭事件[52]。目标是抽取出公司名称、职位、新任人员的姓名、卸任人的姓名。

以上只是这种技术可发挥作用的许多应用领域中的很小的一部分。其他还有很多例子,例如,租赁广告、地理信息、假日旅游信息、天气预报、参考书目信息等。

总的说来,具有信息抽取和收集功能的代理程序可以用于处理任何列表式的、分散在一堆网页上的数据。

5.2.          商用系统

在上节提到的应用中,比价购物是主要的商用领域之一。其原因之一是近来对电子商务的普遍关注以及因特网上与此相关的应用在不断增长。

另一原因是这类网上商店网站专门为用户快速找到商品而设计,具有统一的外观和风格。这就为比价系统自动处理商品信息带来了便利。

由于不同商家经常经营同一商品,因此,从不同商家网站中收集并比较同一产品的价格的服务受到网上购物用户的欢迎。通常,网上商店提供的商品信息是存在数据库系统中的。用户需要这些信息时,系统将根据用户的请求从数据库中提取数据,当即显示给用户。这部分的信息成为了“暗藏网”(hidden web),因为搜索引擎查不到这些数据。比价系统成为除手工收集以外的这类信息获取的唯一途径。

下面将介绍三种商用比价系统:JungleeJangoMySimon。它们是市面上最引人注目的系统,实现方法各有千秋。JangomySimon用的是在线模式,即当用户发出请求时马上到各网站查找信息。Junglee则先把数据收集下来,在必要的时候进行更新。

每个系统都是在用户的请求下返回产品清单,用户可对清单上的价格作出比较并决定从哪个商家中购买。下面对以上系统作一简要介绍。

5.2.1.        Junglee

1996年斯坦福大学的研究生们创建了Junglee1998Amazon以大约1亿8千万美圆的价格收购了该系统。Junglee使用的是一种被成为虚拟数据库(Virtual Database, VDB)的技术,并利用HTMLXML的混合形式表示从多个网站中获取的信息 [4648]

VDB把分散的数据收集下来,规范化并整合起来,为程序员提供一个单一数据库的界面。分装器负责与数据源对接,把数据转换成数据库。

VDB有两个主要组成部分:数据整合系统和数据发布系统。前者完成数据的抽取,后者定期完成数据库更新。

数据整合系统有三个组成部分:一组分装器、一个影射器和一个抽取器。分装器提供对不同网站的统一接口,用描述性编程语言建造,特别针对网站结构和链接网站间的特点而设计。

影射器用预定义的影射规则,把抽取出来的数据转换成统一的格式。抽取器用字典和语言学规则从非结构化的文本中归纳出其组织结构。两者都采用了特殊设计的语言来编写规则。针对每个网站都有一个单独的分装器,而抽取器则针对所有类似网站。

5.2.2.        Jango

Jango的前身是ShopBot,是NETbot的产品。发源于华盛顿大学的研究者Oren Etzioni Dan Weld的研究成果[1718]199710Excite3500万美圆收购了NetBot,把Jango整合进其购物频道。

Jango由四部分组成[8]:(I)一个自然语言前端,能将用户请求转换成产品描述的逻辑表示;(ii)一个查询路由器(query router),能判定产品类别,找出相关的一系列网站;(iii)一个集成引擎,能平行向选定的网站提交查询;(iv)一个过滤器,能用类似于ShopBot 的方法,把信息抽取出来。

在学习阶段,Jango根据网上商店首页的URL和产品领域知识,学习如何在网站购物,能学得每个商店的产品描述的格式,获取价格等产品属性。在购物阶段,这些学得的描述将被用于抽取用户指定的产品信息。信息抽取是在线平行进行。结果以价格排序显示给用户。

5.2.3.        MySimon

MySimonMichael YangYeogirl Yun在1998年4月一起创建的。一种被称为虚拟学习代理(Virtual Learning AgentVLA)的技术由Yeogirl Yun开发并用于网站的学习中。

VLA生成若干智能代理,能模仿人的采购行为,经过训练可从任何一个购物网站上抽取信息。

代理的训练过程是通过一个图形界面进行的。训练者无须是编程人员。在浏览网上商店的同时,系统会复制其获得的信息。根据训练者的操作行为和复制的信息,系统会生成能使代理运行的编码。

5.3.          小结

信息抽取技术可以发挥作用的地方有许多。不过,最成功的要数比价购物。最近两年来,比价购物系统已经投入商用。其中比较出色的是Jango, MySimonJunglee

Jango在线进行抽取,用机器学习方法学得网站结构。MySimon也以在线方式抽取信息,但使用的学习方法不同。非程序员通过实际上网购物,教会智能代理学习如何从网站上抽取相关的信息。

Junglee把数据抽取出来并储存在数据库中,然后用数据库作为比价系统的信息源。一种专用的语言被用来描述网站结构并生成抽取过程所需的代码。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值