自然语言处理
jazwoo
这个作者很懒,什么都没留下…
展开
-
LDA 主题模型(latent dirichlet allocation) 介绍
LDA作用 传统判断两个文档相似性的方法是通过查看两个文档共同出现的单词的多少,如TF-IDF等,这种方法没有考虑到文字背后的语义关联,可能在两个文档共同出现的单词很少甚至没有,但两个文档是相似的。 举个例子,有两个句子分别如下: “乔布斯离我们而去了。” “苹果价格会不会降?”转载 2013-04-22 23:38:15 · 2460 阅读 · 1 评论 -
ICTCLAS2011_JNI接口-整体介绍
中科院的分词工具ICTCLAS(Institute of Computing Technology,Chinese Lexical Analysis System)2011版,汉语词法分析系统ICTCLAS主要功能包括中文分词;词性标注;命名实体识别;新词识别;同时支持用户词典;支持繁体中文;支持gb2312、GBK、UTF8等多种编码格式。 ICTCLAS分词速度单机500KB/s,分词精度98转载 2013-04-18 11:32:59 · 806 阅读 · 0 评论 -
中科院分词ICTCLAS汉语分词系统简单配置
汉语分词一直来说都是进行文本分析的瓶颈,这里介绍一个汉语分词系统ICTCLAS,全球很受欢迎的汉语分词开源系统,曾获得首界国际分词大赛综合排名第一,国家973评测第一名;支持词典,多级词性标注,支持人名、地名、组织名,分词速500KB/s左右,分词精度98.45%,API不超过100KB,各种词典数据压缩后不到3M。一个非常优秀的分词系统,具体下载地址:http://ictclas.org/原创 2013-04-18 11:11:59 · 2339 阅读 · 0 评论 -
ICTCLAS2011_JNI学习笔记-ICTCLAS_SetPOSmap及ICTCLAS_ParagraphProcess接口
1、int ICTCLAS_SetPOSmap(int nPOSmap) * Method: ICTCLAS_SetPOSmap * Parameter: int nPOSmap ICT_POS_MAP_SECOND 0 //计算所二级标注集 ICT_POS_MAP_FIRST 1 //计算所一转载 2013-04-18 11:36:47 · 1338 阅读 · 0 评论 -
ICTCLAS2011_JNI学习笔记-ICTCLAS_ImportUserDictFile及ICTCLAS_SaveTheUsrDic接口
1、int ICTCLAS_ImportUserDictFile(byte[] sPath, int eCodeType)接口: * Method: ICTCLAS_ImportUserDictFile * Parameter: byte[] sPath * Parameter: int eCodeType * Returns:转载 2013-04-18 11:37:06 · 1041 阅读 · 0 评论 -
ICTCLAS2011_JNI学习笔记-ICTCLAS_FileProcess接口
boolean ICTCLAS_FileProcess(byte[] sSrcFilename, int eCodeType, int bPOSTagged, byte[]sDestFilename)接口:该接口与ICTCLAS_ParagraphProcess接口类似,只是该接口用与处理文件,对整个文件的内容进行分词并标注,最后将结果存在目标文件中 * Method: ICTCL转载 2013-04-18 11:37:26 · 902 阅读 · 0 评论 -
LDA的发展过程
摘要:本文讨论的LDA是对于离散数据集,如文本集,的一种生成式概率模型。LDA是一个三层的贝叶斯分层模型,将数据集中每一项,如每个文本,建模为某些未知的topic组成的集合的混合。每个topic又建模为某种混合概率分布。在文本建模中,话题的概率就提供了每个doc的具体表示。个人理解:1.生成式模型,就好像我们要写出一篇文章(生成一篇文档),我们在下笔的时候脑袋里要先有这个文章的主题,然后在转载 2013-05-12 22:49:30 · 2641 阅读 · 0 评论 -
Markov chain& MCMC&Gibbs Sampling 总结
3.1 随机模拟随机模拟(或者统计模拟)方法有一个很酷的别名是蒙特卡罗方法(Monte Carlo Simulation)。这个方法的发展始于20世纪40年代,和原子弹制造的曼哈顿计划密切相关,当时的几个大牛,包括乌拉姆、冯.诺依曼、费米、费曼、Nicholas Metropolis, 在美国洛斯阿拉莫斯国家实验室研究裂变物质的中子连锁反应的时候,开始使用统计模拟的方法,并在最早的计算机上转载 2013-06-03 16:00:51 · 1281 阅读 · 0 评论 -
特征选择常用算法综述
1 综述(1) 什么是特征选择特征选择 ( Feature Selection )也称特征子集选择( Feature Subset Selection , FSS ) ,或属性选择( Attribute Selection ) ,是指从全部特征中选取一个特征子集,使构造出来的模型更好。 (2) 为什么要做特征选择 在机器学习的实际应用中,特征数量往往较多,其转载 2013-07-27 19:05:43 · 714 阅读 · 0 评论 -
Topic Model的分类总结(LDA变种)
Topic Model的分类总结(LDA变种)Topic models主要可以分为四大类:1.无监督无层次结构, 主要有: (1)PLSA(Hofmann 1999), (2) LDA(Blei et al., 2003), (3)Correlated Topic Model (Blei and Lafferty,转载 2013-08-17 22:50:09 · 1530 阅读 · 0 评论 -
Gibbs Sampling实现LDA
关于LDA的介绍见前面几篇文章,这里是Gibbs抽样解LDA的实现可以看到收敛之后主题的结果基本不变package org.jazywoo.lda;import java.util.ArrayList;import java.util.HashMap;import java.util.List;import java.util.Map;public cla原创 2013-04-25 21:08:38 · 1994 阅读 · 1 评论 -
向量空间模型
在有了tf-idf权重计算之后,一个自然的数学建模的想法是:tf-idf权重矩阵 向量空间模型把文档看成是一个向量(vector),其中的每个分量都对应词典中的一个词项,分量值为采用tf-idf计算出的权重值。当某词项在文档中没有出现时,其对应的分量值为0。于是,我们有一个|V|维实值空间,空间的每一维都对应词项(V为词项数目)。对于Web搜索引擎,转载 2013-04-24 13:12:36 · 3719 阅读 · 0 评论 -
国内语料库建设一览表
英语学习者语料库(书面语及口语)中国学习者语料库 CLEC(100万) 广外、上海交大大学英语学习者口语语料库 COLSEC (5万) 上海交大香港科技大学学习者语料库 HKUST Learner Corpus 香港科技大学中国英语专业语料库 CEME (148万) 南京大学中国英语学习者口语语料库 SECCL (100万) 南京大学国际外语学习者英语口语语料库中国部分转载 2013-04-23 18:07:12 · 1699 阅读 · 0 评论 -
EM算法
很碰巧,时隔一年了。面对经典的EM算法,我有了新的认识。经常有人谈到它就是"鸡生蛋,蛋生鸡"的解法,这个很通俗,但是只了解到这一层,是远不够的……EM算法的全名是Expectation Maximization,中文名叫期望最大化算法。它是一个在含有隐变量的模型中常用的算法,在最大似然估计(MLE)和最大后验估计(MAP)中常用。在GMM、HMM、PCFG、IBM 5个对齐模型以及K-Me转载 2013-04-23 18:37:56 · 766 阅读 · 0 评论 -
Dirichlet分布
基础知识:conjugate priors共轭先验 共轭先验是指这样一种概率密度:它使得后验概率的密度函数与先验概率的密度函数具有相同的函数形式。它极大地简化了贝叶斯分析。 如何解释这句话。由于P(u|D) = p(D|u)p(u)/p(D),其中D是给定的一个样本集合,因此对其来说p(D)是一个确定的值,可以理解为一个常数。P(u|D)是后验概率,p(D|转载 2013-04-23 23:27:51 · 1681 阅读 · 0 评论 -
先验概率 后验概率 似然 极大似然估计 极大后验估计 共轭 概念
最近在看LDA,里面涉及到狄利克雷的概念,为了把这个事情搞明白,查了一些相关概率知识,举个例子,掷硬币,伯努利实验 中随机变量x={正面,背面},正面的概率μ为模型参数,假定做了N次试验,Data 中观察序列为X={正面,正面。。。。反面},正面的次数为k,服从二项分布:p(X|μ)∼pk∗(1−P)(N−k)P(X|μ) 则成为似然函数。针对观察到的随机变量(也就是D转载 2013-04-23 23:45:08 · 978 阅读 · 0 评论 -
概率语言模型及其变形系列(2)-LDA及Gibbs Sampling
本系列博文介绍常见概率语言模型及其变形模型,主要总结PLSA、LDA及LDA的变形模型及参数Inference方法。初步计划内容如下第一篇:PLSA及EM算法第二篇:LDA及Gibbs Samping第三篇:LDA变形模型-Twitter LDA,TimeUserLDA,ATM,Labeled-LDA,MaxEnt-LDA等第四篇:基于变形LDA的paper分类转载 2013-04-24 13:06:50 · 1146 阅读 · 0 评论 -
主题模型
两篇文档是否相关往往不只决定于字面上的词语重复,还取决于文字背后的语义关联。对语义关联的挖掘,可以让我们的搜索更加智能化。本文着重介绍了一个语义挖掘的利器:主题模型。主题模型是对文字隐含主题进行建模的方法。它克服了传统信息检索中文档相似度计算方法的缺点,并且能够在海量互联网数据中自动寻找出文字间的语义主题。近些年来各大互联网公司都开始了这方面的探索和尝试。就让我们看一下究竟吧。关键词:主题转载 2013-04-24 12:35:23 · 931 阅读 · 0 评论 -
概率语言模型及其变形系列(5)-LDA Gibbs Sampling 的JAVA实现
本系列博文介绍常见概率语言模型及其变形模型,主要总结PLSA、LDA及LDA的变形模型及参数Inference方法。初步计划内容如下第一篇:PLSA及EM算法第二篇:LDA及Gibbs Samping第三篇:LDA变形模型-Twitter LDA,TimeUserLDA,ATM,Labeled-LDA,MaxEnt-LDA等第四篇:基于变形LDA转载 2013-04-24 13:08:38 · 1261 阅读 · 0 评论 -
Gibbs 采样
1,Gibbs抽样:对P(z),z是向量,按照Gibbs描述的步骤,可以抽取z(1),z(2),...z(n)这n个样本,Gibbs保证这n个样本的分布服从P(z)。 z(0)=(z1,z2,...,zn)Repeatfor i = 1 to n 从p(zi|z1,z2,...,zi,zi+1,...,zn)中抽取zi得到z(t)=(z1,z2转载 2013-04-23 18:40:32 · 1871 阅读 · 0 评论 -
概率语言模型及其变形系列(1)-PLSA及EM算法
本系列博文介绍常见概率语言模型及其变形模型,主要总结PLSA、LDA及LDA的变形模型及参数Inference方法。初步计划内容如下第一篇:PLSA及EM算法第二篇:LDA及Gibbs Samping第三篇:LDA变形模型-Twitter LDA,TimeUserLDA,ATM,Labeled-LDA,MaxEnt-LDA等第四篇:基于变形LDA的paper分类转载 2013-04-24 13:05:54 · 1622 阅读 · 0 评论 -
KL散度(Kullback-Leibler_divergence)
一. 概念KL-divergence,俗称KL距离,常用来衡量两个概率分布的距离。根据shannon的信息论,给定一个字符集的概率分布,我们可以设计一种编码,使得表示该字符集组成的字符串平均需要的比特数最少。假设这个字符集是X,对x∈X,其出现概率为P(x),那么其最优编码平均需要的比特数等于这个字符集的熵:H(X)=∑x∈XP(x)log[1/P(x)]在同样的字符集上,假设存在转载 2013-11-26 16:32:25 · 1041 阅读 · 0 评论