慢慢来de小蜗牛-CSDN博客

转载 nltk载入自己的语料

如果你有自己收集的文本文件，并且想使用前面讨论的方法访问它们，你可以很容易地在NLTK 中的PlaintextCorpusReader 帮助下载入它们。检查你的文件在文件系统中的位置；在下面的例子中，我们假定你的文件在/usr/share/dict 目录下。不管是什么位置，将变量corpus_root

2014-10-19 12:52:46 2248

原创 python+NLTK+科学计算包安装（numpy/scipy/matplotlib等）+win64位

最近折腾nltk的学习，在安装

2014-10-10 10:06:25 3649

原创 LDA好博文总结

最近在看LDA，把看到的比较好的博文粘贴过来，大家可选择性的阅读~~当然，还是要建立在对LDA有初步的了解，可先看看原著。个人觉得如果这写文章基本上都能懂了，LDA应该也差不多了~我在努力中！！！先看rickjin的LDA数学八卦http://www.52nlp.cn/lda-math-%E6%B1%87%E6%80%BB-lda%E6%95%B0%E5%AD%A6

2013-10-23 13:52:28 600

蒙特卡洛(Monte Carlo)模拟是一种通过设定随机过程，反复生成时间序列，计算参数估计量和统计量，进而研究其分布特征的方法。具体的，当系统中各个单元的可靠性特征量已知，但系统的可靠性过于复杂，难以建立可靠性预计的精确数学模型或模型太复杂而不便应用时，可用随机模拟法近似计算出系统可靠性的预计值；随着模拟次数的增多，其预计精度也逐渐增高。由于涉及到时间序列的反复生成，蒙特卡洛模拟法是以高容量和高

2013-10-14 19:15:47 1943

转载极大似然估计的朴素理解

想看原文的，移步~http://www.zhizhihu.com/html/y2010/1520.html最大似然法,英文名称是Maximum Likelihood Method，在统计中应用很广。这个方法的思想最早由高斯提出来，后来由菲舍加以推广并命名。最大似然法是要解决这样一个问题：给定一组数据和一个参数待定的模型，如何确定模型的参数，使得这个确定参数后的模

2013-10-14 12:07:55 619

原创排序算法

1.冒泡排序冒泡排序算法需要遍历几次数组。在每次遍历中，比较连续相邻的元素。如果某一对元素是降序，则互换他们的值；否则，保持不变。由于较小的值像“气泡”一样逐渐浮向顶部，而较大的值沉向底部，故称这种技术为冒泡排序或下沉排序。第一次排序后，

2013-10-10 19:14:37 382

原创机器学习--已有数据源--集合

自己整理的资料：牛人总结：http://www.zhizhihu.com/html/y2012/4034.html这个。。重量级，好多东西~http://m.sciencemag.org/site/feature/data/compsci/machine_learning.xhtml加州大学里恩分校的一个数据库：http://archive.

2013-10-10 18:16:18 735

原创寻找素数

对于一个大于1的整数，如果其除数只有1和它本身，那么它就是一个素数（Prime）。如何确定一个数字是否是素数？可以采用穷举法，检测是否能整除。如果不能，那么就是素数。这个算法耗费时间来检测是否是一个素数。然而，只需要检测是否能整除。如果不能，那么就是素数。算法的效率提高了一些，它的复杂度仍是。实际上，我们可以证明，如果不是素数，那么必须有一个大于1且小于或等于的因子。下面是证明的过程。因为

2013-09-25 14:28:05 408

转载数据挖掘中分类与聚类的区别

分类(classification )是这样的过程：它找出描述并区分数据类或概念的模型(或函数)，以便能够使用模型预测类标记未知的对象类。分类分析在数据挖掘中是一项比较重要的任务,目前在商业上应用最多。分类的目的是学会一个分类函数或分类模型(也常常称作分类器),该模型能把数据库中的数据项映射到给定类别中的某一个类中。分类和回归都可用于预测，两者的目的都是从历史数据纪录中自动推导出对给定数据的推

2013-09-25 10:01:11 869

原创 GCD(Greatest Common Divisor)最大公约数

两个整数的最大公约数是能整除这两个整数的最大数。下面给出几种算法，求两个整数m和n的最大公约数。一种是穷举法。该算法检测k（k=2,3,4,等等）是否是m和n的公约数，直到k大于n或者m。该算法可以如下描述：public static int gcd(int m,int n){ int gcd = 1; for(int k=2;k<=m&&k<=n;k++){

2013-09-24 19:55:45 460

原创斐波拉契数

1.斐波拉切数列的一般递归方法如下：public static long fib(long index){if(index==0)return 0;else if(index ==1)return 1;elsereturn fib(index-1)+fib(index-2);} 2.算法复杂度我们可以证明这个算法的复杂度是

2013-09-23 14:02:38 571

原创 LDA模型简介

8、一些函数及其分布1.Gamma函数学高等数学的时候，我们都学习过如下一个长相有点奇特的Gamma函数容易证明，Γ(x) 函数可以当成是阶乘在实数集上的延拓，具有如下性质 2.Beta函数如果Gamma 函数的定义选取满足 Γ(n)=(n−1)!, 那么有 3.二项分布和多项分布二项分布是n个独立的是/非试验中成功的次数的离散概率分布，其中每

2013-09-10 10:27:26 664

原创 LDA学习总结（2）---基础知识

1、“bag-of words”词袋模型词袋模型是在自然语言处理和信息检索中的一种简单假设。在这种模型中，文本（段落或者文档）被看作是无序的词汇集合，忽略语法甚至是单词的顺序。词袋模型被用在文本分类的一些方法当中。当传统的贝叶斯分类被应用到文本当中时，贝叶斯中的条件独立性假设导致词袋模型。另外一些文本分类方法如LDA和LSA也使用了这个模型。 2、向量空间模型 VSMVSM作为

2013-09-10 10:19:07 976

原创 LDA学习总结

之前做的主要工作是学习一些关于主体模型及其衍生模型的学习，并且其具体的应用。向量空间模型是文本的代数模型，用向量来表示文档。可用于信息过滤、信息检索、文档比较等。 LSA（潜在语义分析）旨在寻找出词与词之间的某种语义关联，达到简化文本，得出词与概念间的关系。可应用于信息检索等。 PLSA 概率潜在语义模型使用统计的方法为文档建立起“文档--潜在语义--词”之间的概率分布关

2013-09-10 10:17:19 713

转载图的基本算法

/** * Title: 图的遍历、最小生成树、最短路径 * * * Description: * * 采用邻接矩阵做为图存储结构，有权无向图，不相连的值为 -1 * * 图的遍历中深度遍历采用递归方法，广度遍历使用辅助队列 * * 最小生成树采用克鲁斯卡尔（Kruskal）算法，使用一数组记录节点的连通情况 * * 图的最短

2013-06-17 15:05:29 376

原创 II. Linear Regression with One/Multiple Variable (Week 1&&2 )

这节课主要讲的是有一个/多个变量的线性回归问题（由于第一二课讲的内容大致相似，放在一起讲~）首先解释什么是回归问题：当我们研究的问题中，针对的研究结果是一个连续的取值，那么叫回归问题；反之如果结果是离散的取值，我们把它归结为分类问题。线性回归问题很好理解，那就是我们所研究的函数变量之间成比列、直线的关系~继续我们房价的例子~例如某一地区的房价由几种因素影响，

2013-05-20 19:01:18 106

原创 introduction

I. Introduction (Week 1)这一课主要讲的是什么是机器学习以及机器学习的分类~首先看看定义：Arthur Samuel (1959). Machine Learning: Field of study that gives computers the ability to learn without being explicitly programmed.即

2013-05-20 18:34:27 406