NLP
文章平均质量分 79
wangran51
这个作者很懒,什么都没留下…
展开
-
人工智能——归结演绎推理
人工智能——归结演绎推理1.子句1)文字:原子谓词及其否定定义1:任何文字的析取式称为子句定义2:不包含任何文字的子句称为空子句,子句是永假的 2) 由子句构成的集合称为子句集,谓词公式成子句集的步骤a) 利用等价关系消去谓词公式中的、 b) 利用下列等价关系把“”移到紧靠谓词的位置上 c) 重新...2011-10-26 09:46:00 · 1202 阅读 · 0 评论 -
基本文本聚类方法
转自:http://hi.baidu.com/yaomohan/blog/item/e7b1c2c2516638110ef477cc.html经过N天的努力,我的第一个文本聚类小程序终于火热出炉了.真不容易啊,在网上看了很多程序才明白其中的核心原理。其实原理很简单,但这个程序最麻烦的是 一些细节,比如字符串的处理还有用什么样的数据结构来存储数据等等,这些才是最麻烦的。下面我会详细...2012-03-22 10:52:00 · 1034 阅读 · 0 评论 -
LDA
关键所在:it posits that each document is a mixture of a small number of topics and that each word's creation is attributable to one of the document's topics。将文档看成是一组主题的混合,词有分配到每个主题的概率。Probabilistic l...2012-03-27 10:44:00 · 177 阅读 · 0 评论 -
Simple Introduction to Dirichlet Process
http://hi.baidu.com/zcfeiyu123/blog/item/c1fb38dad544ae275982dd97.html2012-03-27 10:50:00 · 73 阅读 · 0 评论 -
关于Latent Dirichlet Allocation及Hierarchical LDA模型的必读文章和相关代码
LDA和HLDA:(1)D. M. Blei, et al., "Latent Dirichlet allocation," Journal of Machine Learning Research, vol. 3, pp. 993-1022, 2003.(2)T. L. Griffiths and M. Steyvers, "Finding scientific topics," Proceed...2012-03-27 11:07:00 · 166 阅读 · 0 评论 -
Latent dirichlet allocation note
2 Latent Dirichlet Allocation IntroductionLDA是给文本建模的一种方法,它属于生成模型。生成模型是指该模型可以随机生成可观测的数据,LDA可以随机生成一篇由N个主题组成文章。通过对文本的建模,我们可以对文本进行主题分类,判断相似度等。在90年代提出的LSA中,通过对向量空间进行降维,获得文本的潜在语义空间。在LDA中则是通过将文本映射到主题空...2012-03-29 18:55:00 · 153 阅读 · 0 评论 -
Latent semantic analysis note(LSA)
1 LSA IntroductionLSA(latent semantic analysis)潜在语义分析,也被称为LSI(latent semantic index),是Scott Deerwester, Susan T. Dumais等人在1990年提出来的一种新的索引和检索方法。该方法和传统向量空间模型(vector space model)一样使用向量来表示词(terms)和...2012-03-29 18:58:00 · 455 阅读 · 0 评论 -
SVD奇异值分解
SVD分解SVD分解是LSA的数学基础,本文是我的LSA学习笔记的一部分,之所以单独拿出来,是因为SVD可以说是LSA的基础,要理解LSA必须了解SVD,因此将LSA笔记的SVD一节单独作为一篇文章。本节讨论SVD分解相关数学问题,一个分为3个部分,第一部分讨论线性代数中的一些基础知识,第二部分讨论SVD矩阵分解,第三部分讨论低阶近似。本节讨论的矩阵都是实数矩阵。基础知识1. 矩阵...2012-03-29 18:59:00 · 114 阅读 · 0 评论 -
伽马贝塔函数
在数理方程、概率论等学科经常遇到以下的含参变量的积分,它们依次为第一类和第二类欧拉(Euler 1707~1783瑞士数学家)积分,或依次称为贝塔(Bata)函数和伽马(Gamma)函数,这一节主要讨论这两个函数的若干性质。11.3.1伽马函数显然,我们应首先考虑伽马函数(3.1)的收敛问题。式(3.1)右端的积分不仅是一个无穷积分,而且当时,还是被积函数的一个瑕点。为此...2012-03-31 12:34:00 · 2251 阅读 · 0 评论 -
BookList
[收藏]最近看到的机器学习、NLP相关书单2013年04月01日⁄读书⁄ 共 310字 ⁄评论数 3⁄ 被围观 557 阅读+书单再多,不去读,也是白搭~~水木上的machine learning书单:http://www.newsmth.net/bbscon.php?bid=5&id=34859&ftype=11weibo上@王威廉最近有...2013-04-19 10:18:00 · 136 阅读 · 0 评论 -
狄拉克δ函数(Dirac Delta function)
PS:狄拉克δ函数(Dirac Delta function)又称单位脉冲函数。通常用δ表示。在概念上,它是这么一个“函数”:在除了零以外的点都等于零,而其在整个定义域上的积分等于1。严格来说狄拉克δ函数不能算是一个函数,因为满足以上条件的函数是不存在的。但可以用分布的概念来解释,称为狄拉克δ分布,或δ分布,但与费米-狄拉克分布是两回事。在广义函数论里也可以找到δ函数的解释,此时δ作为一个极...2012-04-19 14:07:00 · 1405 阅读 · 0 评论 -
【推荐】LSI(latent semantic indexing) 完美教程
【推荐】LSI(latent semantic indexing) 完美教程"instead of lecturing about SVD I want to show you how things work --step by step"-- 如果大家认同这句话的话,Dr. E. Garcia写的此教程就是最适合你阅读的LSI / LSA教程。原文比较长,直接贴链接了:...2013-06-05 15:16:00 · 351 阅读 · 0 评论 -
文本分类 特征选取之CHI开方检验
前文提到过,除了分类算法以外,为分类文本作处理的特征提取算法也对最终效果有巨大影响,而特征提取算法又分为特征选择和特征抽取两大类,其中特征选择算法有互信息,文档频率,信息增益,开方检验等等十数种,这次先介绍特征选择算法中效果比较好的开方检验方法。开方检验最基本的思想就是通过观察实际值与理论值的偏差来确定理论的正确与否。具体做的时候常常先假设两个变量确实是独立的(行话就叫做“原假设”),然后...2012-12-28 10:05:00 · 121 阅读 · 0 评论 -
CRF++使用
前段时间写了中文分词的一些记录里面提到了CRF的分词方法,近段时间又研究了一下,特把方法写下来,以备忘,另外,李沫南同学优化过CRF++,见:http://www.coreseek.cn/opensource/CRF/。我觉得CRF++还有更大的优化空间,以后有时间再搞。 1 下载和安装CRF的概念,请google,我就不浪费资源啦。官方地址如下:http://crfpp.so...2012-12-28 11:01:00 · 152 阅读 · 0 评论 -
特征选择与特征权重区别
在文本分类的过程中,特征(也可以简单的理解为“词”)从人类能够理解的形式转换为计算机能够理解的形式时,实际上经过了两步骤的量化——特征选择阶段的重要程度量化和将具体文本转化为向量时的特征权重量化。初次接触文本分类的人很容易混淆这两个步骤使用的方法和各自的目的,因而我经常听到读者有类似“如何使用TFIDF做特征选择”或者“卡方检验量化权重后每篇文章都一样”等等困惑。想想通过指纹来识别一个人的身...2013-01-07 10:19:00 · 737 阅读 · 0 评论 -
Latent dirichlet allocation note -- Prepare
转自莘莘学子blog :http://ljm426.blog.163.com/blog/static/120003220098110425415/By: Zhou, Blog:http://foreveralbum.yo2.cn 1 基础知识1.1 贝叶斯统计假设有两个箱子,每个箱子装了8个球,A箱子3个红球5个白球,B箱子6个红球2个白球。如果问从A箱子摸出一个红球的概率,...2012-03-21 10:29:00 · 95 阅读 · 0 评论 -
Text Mining Blog
http://www.blogjava.net/fullfocus2013-03-11 12:06:00 · 125 阅读 · 0 评论 -
情感语料
http://www.searchforum.org.cn/tansongbo/corpus-senti.htm2012-07-19 20:39:00 · 208 阅读 · 0 评论 -
Beli Makfile for linux
.SUFFIXES: .c .u CC= gcc # CFLAGS_MAC = -g -Wall -O3 -DHAVE_INLINE -DGSL_RANGE_CHECK_OFF -Winline -funroll-loops -fstrict-aliasing -fsched-interblock -falign-loops=16 -falign-jumps=16 -falign-function...2012-04-25 13:12:00 · 152 阅读 · 0 评论 -
决策树ID3算法
http://leon-a.javaeye.com/blog/178585 1.背景知识: 决策树是对数据进行分类,以此达到预测的目的。该决策树方法先根据训练集数据形成决策树,如果该树不能对所有对象给出正确的分类,那么选择一些例外加入到 训练集数据中,重复该过程一直到形成正确的决策集。决策树代表着决策集的树形结构。 决策树由决策结点、分支和叶子组成。决策树中最上面的结点为根结点,每个分支...2012-01-25 21:07:00 · 191 阅读 · 0 评论 -
Entropy
相对熵(relative entropy)又称为KL散度(Kullback–Leibler divergence,简称KLD),信息散度(information divergence),信息增益(informationgain)。 KL散度是两个概率分布P和Q差别的非对称性的度量。 KL散度是用来度量使用基于Q的编码来编码来自P的样本平均所需的额外的比特个数。典型情况下,P表示数据的真实分...2012-05-18 09:43:00 · 206 阅读 · 0 评论 -
准确率召回率
http://blog.sina.com.cn/s/blog_4b59de070100ehl7.html最近一直在做相关推荐方面的研究与应用工作,召回率与准确率这两个概念偶尔会遇到,知道意思,但是有时候要很清晰地向同学介绍则有点转不过弯来。 召回率和准确率是数据挖掘中预测、互联网中的搜索引擎等经常涉及的两个概念和指标。 召回率:Recall,又称“查全率”——还是查全率好记,也更能体现其...2012-05-18 10:13:00 · 1118 阅读 · 0 评论 -
隐马尔科夫模型HMM自学 (2)
HMM 定义崔晓源 翻译HMM是一个三元组 (,A,B).the vector of the initial state probabilities;the state transition matrix;the confusion matrix;这其中,所有的状态转移概率和混淆概率在整个系统中都是一成不变的。这也是HMM中最不切实际的假设。HMM的应用有三...2012-05-22 17:04:00 · 144 阅读 · 0 评论 -
隐马尔科夫模型HMM自学 (3)
Viterbi Algorithm本来想明天再把后面的部分写好,可是睡觉今天是节日呢?一时情不自禁就有打开电脑..........找到可能性最大的隐含状态序列崔晓源 翻译多数情况下,我们都希望能够根据一个给定的HMM模型,根据观察状态序列找到产生这一序列的潜在的隐含状态序列。1、穷举搜索方法我们可以通过穷举的方式列出所有可能隐含状态序列,并算出每一种隐状态序列组合...2012-05-22 17:06:00 · 129 阅读 · 0 评论 -
Boosting for PRML
Boosting方法:Boosting这其实思想相当的简单,大概是,对一份数据,建立M个模型(比如分类),一般这种模型比较简单,称为弱分类器(weak learner)每次分类都将上一次分错的数据权重提高一点再进行分类,这样最终得到的分类器在测试数据与训练数据上都可以得到比较好的成绩。上图(图片来自prml p660)就是一个Boosting的过程,绿色的线表示目前取得的模型(模型是...2012-05-26 13:24:00 · 128 阅读 · 0 评论 -
Adaboost
3.1.2 AdaBoost算法原理AdaBoost算法针对不同的训练集训练同一个基本分类器(弱分类器),然后把这些在不同训练集上得到的分类器集合起来,构成一个更强的最终的分类器(强分类器)。理论证明,只要每个弱分类器分类能力比随机猜测要好,当其个数趋向于无穷个数时,强分类器的错误率将趋向于零。AdaBoost算法中不同的训练集是通过调整每个样本对应的权重实现的。最开始的时候,每个样本对应的...2012-05-26 13:26:00 · 78 阅读 · 0 评论 -
Adaboost from Baidu
http://www.doc88.com/p-74284867720.html boost一篇不错的ppt一、Boosting算法的发展历史 Boosting算法是一种把若干个分类器整合为一个分类器的方法,在boosting算法产生之前,还出现过两种比较重要的将多个分类器整合为一个分类器的方法,即boostrapping方法和bagging方法。我们先简要介绍一下bootstrapp...2012-05-26 13:28:00 · 75 阅读 · 0 评论 -
Karush-Kuhn-Tucker 最优化条件 (KKT 条件)(转载)
一般地,一个最优化数学模型能够表示成下列标准形式:所谓 Karush-Kuhn-Tucker 最优化条件,就是指上式的最小点x*必须满足下面的条件:KKT最优化条件是Karush[1939]以及Kuhn和Tucker[1951]先后独立发表出來的。这组最优化条件在Kuhn和Tucker发表之后才逐渐受到重视,因此许多书只记载成「Kuhn-Tucker 最优化条件 (Kuhn...2012-02-04 23:37:00 · 289 阅读 · 0 评论 -
SVM中的Karush-Kuhn-Tucker条件和对偶问题
因为这里公式编辑不方便,为求严谨,写在word上截图,图片边缘缺失的字,下面补上。需要满足的条件。线性组合。两个拉格朗日乘子不同的地方在于条件也是KKT条件之一。可以直接套用二次规划。如果反过来,如何将对偶式对偶回原来的目标式? ...2012-02-04 23:47:00 · 88 阅读 · 0 评论 -
求置信区间
英文为:binomial proportion confidence interval一.正态近似——最常见和常用的 它的英文名:normal approximation interval.此公式适用于二项分布的大样本。是否为大样本的一个近似的必要的条件是:这个区间应完全在(0,1)区间之内。对公式的更多了解:http://en.wikipedia.org/...2012-02-20 11:17:00 · 803 阅读 · 0 评论 -
学习SVM
【转载请注明出处】http://www.cnblogs.com/jerrylead 1 简介支持向量机基本上是最好的有监督学习算法了。最开始接触SVM是去年暑假的时候,老师要求交《统计学习理论》的报告,那时去网上下了一份入门教程,里面讲的很通俗,当时只是大致了解了一些相关概念。这次斯坦福提供的学习材料,让我重新学习了一些SVM知识。我看很多正统的讲法都是从VC 维理论和结构风...2012-03-14 22:10:00 · 183 阅读 · 0 评论 -
EM算法
(EM算法)The EM AlgorithmEM是我一直想深入学习的算法之一,第一次听说是在NLP课中的HMM那一节,为了解决HMM的参数估计问题,使用了EM算法。在之后的MT中的词对齐中也用到了。在Mitchell的书中也提到EM可以用于贝叶斯网络中。下面主要介绍EM的整个推导过程。1. Jensen不等式回顾优化理论中的一些概念。设f是定义域为实数的函数,如果对于所有...2012-03-14 22:11:00 · 177 阅读 · 0 评论 -
PyMining
PyMining-开源中文文本数据挖掘平台 Ver 0.1发布项目首页:http://code.google.com/p/python-data-mining-platform/(可能需)目前已经在该googlecode中加入了Tutorial等内容,可以在wiki中查看 项目介绍(复制自项目首页的说明):这是一个能够根据源数据(比如说用csv格式表示的矩阵,或者...2013-01-09 11:47:00 · 181 阅读 · 0 评论