详细内容详见诸论文,阅读中有问题欢迎一起探讨
Graph Model
David M. Blei , J. Andrew Bagnell , Andrew McCallum : Learning with Scope, with Application to Information Extraction and Classification.
介绍了一个利用生成式模型用于无模板抽取,该论文解决的主要问题是全局特征和局部特征的结合(该文是很多后续类似的工作的起源)。
Jun Zhu , Zaiqing Nie , Ji-Rong Wen , Bo Zhang , Wei-Ying Ma : 2D Conditional Random Fields for Web information extraction
假设前提是网页中描述产品的页面,可以划分成多个 object element ,而这种 element 之间的关系在不同的网站中有一定相似性,所以可以通过 CRF model 这种 object element 之间的 dependency ,从而获得效果的提升。该文并给出了一种将 2D CRF 转化为 linear chain 的 parameter estimation 的方法 (后续又提出了 HCRF (树结构的 CRF )用于 model 树本身结构的特征)
Bootstrapping and Multiview Learning
Andrew Carlson ,Charles Schafer : Bootstrapping Information Extraction from Semi-structured Web Pages
介绍了一个利用 boostrapping 结合多个分类器 抽取 detail page 中指定域的方法
Ion Muslea , Steven Minton , Craig A. Knoblock : Active + Semi-supervised Learning = Robust Multi-View Learning.
以用于网页抽取的 wrapper 生成为背景,将其提出了一种 active learning method Co-testing 结合多视角半监督方法 Co-EM ,并指出这种方法更 robust 相对于多视角学习中的数据的两个限制 (1)independent ( 2 ) sufficient good enough
Yan Zhou , Sally A. Goldman : Democratic Co-Learning
本文还是有关 multi-view learning. 针对 multi-view learning 的关于 data 的两个限制,该文提出了不同的 learning algorithm 实际上也是基于不同假设,所以即使利用相同的数据,但是利用两种不同的算法,效果也可能存在改善,作者在该文把中宗方法称为 Co-Learning
Semi-supervised learning
Andrew McCallum, Gideon Mann, Gregory Druck : Generalized Expectation Criteria
本文提出了一种 generalize expectation criteria 用于将 additional knowledge 加入到 object function 中从而使的 parameter estimation 可以包含专家经验,或者 unlabeled data 中的一些知识。随后发表了一些列的使用 GE criteria 的 semi-supervised application 论文。
Andrew McCallum , Kedar Bellare , Fernando C. N. Pereira : A Conditional Random Field for Discriminatively-trained Finite-state String Edit Distance
该文介绍了一种利用 CRF 做字符串匹配的方法,并提出了一中 包含 latent variable 的 CRF 的 parameters 训练方法,实际上就是 EM 方法。该 CRF-based alignment 方法随后被用于补全数据库中 record 内缺失的内容。