自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

  • 博客(19)
  • 资源 (1)
  • 收藏
  • 关注

转载 nltk载入自己的语料

如果你有自己收集的文本文件,并且想使用前面讨论的方法访问它们,你可以很容易地在NLTK 中的PlaintextCorpusReader 帮助下载入它们。检查你的文件在文件系统中的位置;在下面的例子中,我们假定你的文件在/usr/share/dict 目录下。不管是什么位置,将变量corpus_root

2014-10-19 12:52:46 2094

原创 python+NLTK+科学计算包安装(numpy/scipy/matplotlib等)+win64位

最近折腾nltk的学习,在安装

2014-10-10 10:06:25 3580 6

原创 java中的Clone

clone的方法是返回

2013-10-28 15:05:51 78

原创 LDA好博文总结

最近在看LDA,把看到的比较好的博文粘贴过来,大家可选择性的阅读~~当然,还是要建立在对LDA有初步的了解,可先看看原著。个人觉得如果这写文章基本上都能懂了,LDA应该也差不多了~我在努力中!!!先看rickjin的LDA数学八卦http://www.52nlp.cn/lda-math-%E6%B1%87%E6%80%BB-lda%E6%95%B0%E5%AD%A6

2013-10-23 13:52:28 563

转载 马尔科夫链蒙特卡洛方法

蒙特卡洛(Monte Carlo)模拟是一种通过设定随机过程,反复生成时间序列,计算参数估计量和统计量,进而研究其分布特征的方法。具体的,当系统中各个单元的可靠性特征量已知,但系统的可靠性过于复杂,难以建立可靠性预计的精确数学模型或模型太复杂而不便应用时,可用随机模拟法近似计算出系统可靠性的预计值;随着模拟次数的增多,其预计精度也逐渐增高。由于涉及到时间序列的反复生成,蒙特卡洛模拟法是以高容量和高

2013-10-14 19:15:47 1829

转载 极大似然估计的朴素理解

想看原文的,移步~http://www.zhizhihu.com/html/y2010/1520.html最大似然法,英文名称是Maximum Likelihood Method,在统计中应用很广。这个方法的思想最早由高斯提出来,后来由菲舍加以推广并命名。最大似然法是要解决这样一个问题:给定一组数据和一个参数待定的模型,如何确定模型的参数,使得这个确定参数后的模

2013-10-14 12:07:55 579

原创 排序算法

1.冒泡排序冒泡排序算法需要遍历几次数组。在每次遍历中,比较连续相邻的元素。如果某一对元素是降序,则互换他们的值;否则,保持不变。由于较小的值像“气泡”一样逐渐浮向顶部,而较大的值沉向底部,故称这种技术为冒泡排序或下沉排序。第一次排序后,

2013-10-10 19:14:37 350

原创 机器学习--已有数据源--集合

自己整理的资料:牛人总结:http://www.zhizhihu.com/html/y2012/4034.html这个。。重量级,好多东西~http://m.sciencemag.org/site/feature/data/compsci/machine_learning.xhtml加州大学里恩分校的一个数据库:http://archive.

2013-10-10 18:16:18 691

原创 寻找素数

对于一个大于1的整数,如果其除数只有1和它本身,那么它就是一个素数(Prime)。如何确定一个数字是否是素数?可以采用穷举法,检测是否能整除。如果不能,那么就是素数。这个算法耗费时间来检测是否是一个素数。然而,只需要检测是否能整除。如果不能,那么就是素数。算法的效率提高了一些,它的复杂度仍是。实际上,我们可以证明,如果不是素数,那么必须有一个大于1且小于或等于的因子。下面是证明的过程。因为

2013-09-25 14:28:05 372

转载 数据挖掘中分类与聚类的区别

分类(classification )是这样的过程:它找出描述并区分数据类或概念的模型(或函数),以便能够使用模型预测类标记未知的对象类。分类分析在数据挖掘中是一项比较重要的任务,目前在商业上应用最多。分类的目的是学会一个分类函数或分类模型(也常常称作分类器),该模型能把数据库中的数据项映射到给定类别中的某一个类中。分类和回归都可用于预测,两者的目的都是从历史数据纪录中自动推导出对给定数据的推

2013-09-25 10:01:11 803

原创 GCD(Greatest Common Divisor)最大公约数

两个整数的最大公约数是能整除这两个整数的最大数。下面给出几种算法,求两个整数m和n的最大公约数。一种是穷举法。该算法检测k(k=2,3,4,等等)是否是m和n的公约数,直到k大于n或者m。该算法可以如下描述:public static int gcd(int m,int n){ int gcd = 1; for(int k=2;k<=m&&k<=n;k++){

2013-09-24 19:55:45 420

原创 斐波拉契数

1.斐波拉切数列的一般递归方法如下:public static long fib(long index){if(index==0)return 0;else if(index ==1)return 1;elsereturn fib(index-1)+fib(index-2);} 2.算法复杂度我们可以证明这个算法的复杂度是

2013-09-23 14:02:38 534

原创 LDA模型简介

8、一些函数及其分布1.Gamma函数学高等数学的时候,我们都学习过如下一个长相有点奇特的Gamma函数 容易证明,Γ(x) 函数可以当成是阶乘在实数集上的延拓,具有如下性质 2.Beta函数 如果Gamma 函数的定义选取满足 Γ(n)=(n−1)!, 那么有  3.二项分布和多项分布二项分布是n个独立的是/非试验中成功的次数的离散概率分布,其中每

2013-09-10 10:27:26 616

原创 LDA学习总结(2)---基础知识

1、“bag-of words”词袋模型词袋模型是在自然语言处理和信息检索中的一种简单假设。在这种模型中,文本(段落或者文档)被看作是无序的词汇集合,忽略语法甚至是单词的顺序。  词袋模型被用在文本分类的一些方法当中。当传统的贝叶斯分类被应用到文本当中时,贝叶斯中的条件独立性假设导致词袋模型。另外一些文本分类方法如LDA和LSA也使用了这个模型。 2、向量空间模型 VSMVSM作为

2013-09-10 10:19:07 930 1

原创 LDA学习总结

之前做的主要工作是学习一些关于主体模型及其衍生模型的学习,并且其具体的应用。 向量空间模型是文本的代数模型,用向量来表示文档。可用于信息过滤、信息检索、文档比较等。 LSA(潜在语义分析)旨在寻找出词与词之间的某种语义关联,达到简化文本,得出词与概念间的关系。可应用于信息检索等。 PLSA 概率潜在语义模型使用统计的方法为文档建立起“文档--潜在语义--词”之间的概率分布关

2013-09-10 10:17:19 623

转载 图的基本算法

/** * Title: 图的遍历、最小生成树、最短路径 * * * Description: * * 采用邻接矩阵做为图存储结构,有权无向图,不相连的值为 -1 * * 图的遍历中深度遍历采用递归方法,广度遍历使用辅助队列 * * 最小生成树采用克鲁斯卡尔(Kruskal)算法,使用一数组记录节点的连通情况 * * 图的最短

2013-06-17 15:05:29 344

原创 II. Linear Regression with One/Multiple Variable (Week 1&&2 )

这节课主要讲的是有一个/多个变量的线性回归问题(由于第一二课讲的内容大致相似,放在一起讲~)首先解释什么是回归问题:当我们研究的问题中,针对的研究结果是一个连续的取值,那么叫回归问题;反之如果结果是离散的取值,我们把它归结为分类问题。线性回归问题很好理解,那就是我们所研究的函数变量之间成比列、直线的关系~继续我们房价的例子~例如某一地区的房价由几种因素影响,

2013-05-20 19:01:18 65

原创 introduction

I. Introduction (Week 1)这一课主要讲的是什么是机器学习以及机器学习的分类~首先看看定义:Arthur Samuel (1959). Machine Learning: Field of study that gives computers the ability to learn without being explicitly programmed.即

2013-05-20 18:34:27 365

原创 machine learning by Andrew Ng 之学习笔记系列~

终于开始写博客鸟~~一是为了督促自己把学到的写下来,方便日后复习~二是为了跟Jackie_Zhu之类的大牛走得更近,慢点跑,别扔下我们 这群汉子~~啊~~如题,为机器学习的笔记,会根据大的N次方牛人Andrew Ng的机器学习课程进行总结~~所以,开始奔跑吧,汉子们~·~

2013-05-20 18:32:39 585

软件设计师考试考点分析与真题详解

是关于软件设计师考试考点分析与真题详解pdf的,清晰度当然没有书本那么高~~

2010-03-20

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除