NLP
文章平均质量分 71
davidcqw
这个作者很懒,什么都没留下…
展开
-
PRML阅读记(3)
继续啃PRML 第八章: Basic notation: node --> random variable or group of random variableslink --> probabilistic relation shipnotation of random var and non-random var, observed and unobserved var原创 2014-05-04 15:21:14 · 590 阅读 · 0 评论 -
运行 Moses 期间遇到的问题
一. 处理原始语料,我用的语料是http://mitel.ict.ac.cn/mteval/data/train.xml.gz中的30万句对 1. 用python里面的ElementTree 将XML文件解析出来并分成ch和en两个文件(注意,该语料本身是有问题的,有些标记没有匹配,需要先用正则进行修改。另外,需要先用notepad 将语料转换成utf-8,并在XML文件的第一行写上,再在p原创 2014-05-08 19:01:13 · 735 阅读 · 1 评论 -
Machine learning and Classifier from Wiki
Wiki真是一个好东西,什么知识点都列得清清楚楚,简直就是一本万能的书。。。learning and Classifier from Wiki" title="Machine learning and Classifier from Wiki" style="margin:0px; padding:0px; border:0px; list-style:none; color:rgb(50,62,转载 2014-05-08 19:10:22 · 1026 阅读 · 0 评论 -
有用的工具
以下工具绝大多数都是开源的,基于GPL、Apache等开源协议,使用时请仔细阅读各工具的license statement I. Information Retrieval 1. Lemur/Indri The Lemur Toolkit for Language Modeling and Information Retrieval http://www.lemurproject.org/转载 2014-05-08 18:26:18 · 1855 阅读 · 0 评论 -
NLP好文章
最近把一些在网上见到的自然语言处理的资源整理了一下,包括论文列表、软件资源和一些实验室主页、个人主页等,希望能对NLP研究者有所帮助,由于个人视野有限,目前只整理了这些,以后会持续更新。在此也感谢这些资源的提供者和维护者。 转载请标明出处(http://blog.csdn.net/xuh5156/article/details/7437475) 论文、博客 1. Go转载 2014-05-08 18:28:54 · 1040 阅读 · 0 评论 -
关于混合高斯、EM和K-means
与k-means一样,给定的训练样本是,我们将隐含类别标签用表示。与k-means的硬指定不同,我们首先认为是满足一定的概率分布的,这里我们认为满足多项式分布,,其中,有k个值{1,…,k}可以选取。而且我们认为在给定后,满足多值高斯分布,即。由此可以得到联合分布。 整个模型简单描述为对于每个样例,我们先从k个类别中按多项式分布抽取一个,然后根据所对应的k个多值高斯分布中的一个生转载 2014-05-08 18:33:45 · 908 阅读 · 0 评论 -
Moses搭建过程遇到的一些问题与解决
本人是按照这个链接 http://blog.csdn.net/csdidi/article/details/6200513 来安装 Moses, 但在安装过程仍然出现很多问题,记录如下: 安装Moses的需要的工具有 GIZA++, mkcls, SRILM, 分词工具(我用的是ICTCLAS) 1. 安装SRILM 需要 gawk, make, tcl,提前安装,原创 2014-05-08 19:03:23 · 1011 阅读 · 0 评论 -
more tools
机器学习 Support Vector Machine SVMlight An implementation of Vapnik's Support Vector Machine LIBSVM A Library for Support Vector Machines Decision Tree C4.5 Th转载 2014-05-08 18:22:11 · 1038 阅读 · 0 评论 -
PRML阅读记(1)
最近刚刚看完Ng的machine learning,想再加一点料,于是拿起PRML,开始啃。。。 第一章: Polynomial Curve Fitting: regression, error function, RMS(root-mean-square),overfitting Probability Theory: many distributio原创 2014-05-04 15:14:37 · 900 阅读 · 0 评论 -
PRML阅读记(2)
继续PRML 第二章: Binary Variables: Bernouli Distribution, binomial distributionconjugate prior --> beta distribution Multinomial Variables: multinomial distributionconjugate prior -->原创 2014-05-04 15:18:37 · 894 阅读 · 0 评论 -
2012年03月26日
利用对数线性模型进行词对齐训练的整个过程: 1、语料预处理 用python解析xml,生成src, trg, ref, srcTest, trgTest 和 refTest。 注意:由于本人是在linux下进行的预处理,所以要先将所有语料用notepad转换为与我的linux系统的编码相同(如uft-8),再将xml用dos2unix命令进行转换,,最后再用python解析,解析原创 2014-05-08 18:58:04 · 448 阅读 · 0 评论