信息抽取(IE)领域相关论文阅读小结

详细内容详见诸论文,阅读中有问题欢迎一起探讨

Graph Model

David M. Blei , J. Andrew Bagnell , Andrew McCallum : Learning with Scope, with Application to Information Extraction and Classification.

介绍了一个利用生成式模型用于无模板抽取,该论文解决的主要问题是全局特征和局部特征的结合(该文是很多后续类似的工作的起源)。

 

Jun Zhu , Zaiqing Nie , Ji-Rong Wen , Bo Zhang , Wei-Ying Ma : 2D Conditional Random Fields for Web information extraction

假设前提是网页中描述产品的页面,可以划分成多个 object element ,而这种 element 之间的关系在不同的网站中有一定相似性,所以可以通过 CRF model 这种 object element 之间的 dependency ,从而获得效果的提升。该文并给出了一种将 2D CRF 转化为 linear chain parameter estimation 的方法 (后续又提出了 HCRF (树结构的 CRF )用于 model 树本身结构的特征)

 

Bootstrapping and Multiview Learning

 

Andrew Carlson ,Charles Schafer : Bootstrapping Information Extraction from Semi-structured Web Pages

介绍了一个利用 boostrapping 结合多个分类器 抽取 detail page 中指定域的方法

 

Ion Muslea , Steven Minton , Craig A. Knoblock : Active + Semi-supervised Learning = Robust Multi-View Learning.

以用于网页抽取的 wrapper 生成为背景,将其提出了一种 active learning method Co-testing 结合多视角半监督方法 Co-EM ,并指出这种方法更 robust 相对于多视角学习中的数据的两个限制 (1)independent 2 sufficient good enough

 

Yan Zhou , Sally A. Goldman : Democratic Co-Learning

本文还是有关 multi-view learning. 针对 multi-view learning 的关于 data 的两个限制,该文提出了不同的 learning algorithm 实际上也是基于不同假设,所以即使利用相同的数据,但是利用两种不同的算法,效果也可能存在改善,作者在该文把中宗方法称为 Co-Learning

 

Semi-supervised learning

Andrew McCallum, Gideon Mann, Gregory Druck Generalized Expectation Criteria

本文提出了一种 generalize expectation criteria 用于将 additional knowledge 加入到 object function 中从而使的 parameter estimation 可以包含专家经验,或者 unlabeled data 中的一些知识。随后发表了一些列的使用 GE criteria semi-supervised application 论文。

Andrew McCallum , Kedar Bellare , Fernando C. N. Pereira : A Conditional Random Field for Discriminatively-trained Finite-state String Edit Distance

该文介绍了一种利用 CRF 做字符串匹配的方法,并提出了一中 包含 latent variable CRF parameters 训练方法,实际上就是 EM 方法。该 CRF-based alignment 方法随后被用于补全数据库中 record 内缺失的内容。

 

  • 0
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值