摘要 提出一种新的网页信息抽取方法,基于子树的广度,可不加区分地对不同科技文献网站的页面信息进行自动抽取。对大量科技文献网站进行信息抽取实验,已应用到甘肃省科技文献共享平台。实验结果证明,该方法能不依赖科技文献网页的来源而自动地抽取相关信息,并能保证较高的数据抽取回召率和查准率。
关键词 子树广度 信息抽取 跨库检索
文章连接http://www.ecice06.com/CN/abstract/abstract11291.shtml
点击下载全文 全文地址:http://www.ecice06.com/CN/article/downloadArticleFile.do?attachType=PDF&id=11291