![](https://img-blog.csdnimg.cn/20201014180756922.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
Machine Learning
文章平均质量分 69
wangran51
这个作者很懒,什么都没留下…
展开
-
【推荐】LSI(latent semantic indexing) 完美教程
【推荐】LSI(latent semantic indexing) 完美教程"instead of lecturing about SVD I want to show you how things work --step by step" -- 如果大家认同这句话的话,Dr. E. Garcia写的此教程就是最适合你阅读的LSI / LSA教程。原文比较长,直接贴转载 2013-06-05 15:16:37 · 3699 阅读 · 0 评论 -
正文提取
目前互联网上公布出来的正文提取算法,大家可以综合比较下,一起来测试下哪个更好用。 词网--北京词网科技有限公司 http://demo.cikuu.com/cgi-bin/cgi-contex 猎兔网页正文提取 http://www.lie目前互联网上公布出来的正文提取算法,大家可以综合比较下,一起来测试下哪个更好用。 词网--北京词网科技有限公司http://demo.cikuu.com转载 2012-10-25 11:36:59 · 8193 阅读 · 3 评论 -
EM index
http://www.cnblogs.com/rocketfan转载 2012-07-17 14:57:41 · 597 阅读 · 0 评论 -
隐马尔科夫模型HMM自学 (3)
Viterbi Algorithm本来想明天再把后面的部分写好,可是睡觉今天是节日呢?一时情不自禁就有打开电脑..........找到可能性最大的隐含状态序列崔晓源 翻译多数情况下,我们都希望能够根据一个给定的HMM模型,根据观察状态序列找到产生这一序列的潜在的隐含状态序列。1、穷举搜索方法 我们可以通过穷举的方式列出所有可能隐含状态序列,并算出每一种隐状态序列组合转载 2012-05-22 17:06:01 · 1522 阅读 · 0 评论 -
隐马尔科夫模型HMM自学(1)
介绍崔晓源 翻译我们通常都习惯寻找一个事物在一段时间里的变化规律。在很多领域我们都希望找到这个规律,比如计算机中的指令顺序,句子中的词顺序和语音中的词顺序等等。一个最适用的例子就是天气的预测。首先,本文会介绍声称概率模式的系统,用来预测天气的变化然后,我们会分析这样一个系统,我们希望预测的状态是隐藏在表象之后的,并不是我们观察到的现象。比如,我们会根据观察到的植物海藻的表象来预测天转载 2012-05-22 17:02:20 · 6972 阅读 · 1 评论 -
隐马尔科夫模型HMM自学 (2)
HMM 定义崔晓源 翻译HMM是一个三元组 (,A,B). the vector of the initial state probabilities; the state transition matrix; the confusion matrix; 这其中,所有的状态转移概率和混淆概率在整个系统中都是一成不变的。这也是HMM中最不转载 2012-05-22 17:04:21 · 2697 阅读 · 3 评论 -
Boosting for PRML
Boosting方法: Boosting这其实思想相当的简单,大概是,对一份数据,建立M个模型(比如分类),一般这种模型比较简单,称为弱分类器(weak learner)每次分类都将上一次分错的数据权重提高一点再进行分类,这样最终得到的分类器在测试数据与训练数据上都可以得到比较好的成绩。 上图(图片来自prml p660)就是一个Boosting的过程,绿转载 2012-05-26 13:24:48 · 1921 阅读 · 0 评论 -
Adaboost
3.1.2 AdaBoost算法原理AdaBoost算法针对不同的训练集训练同一个基本分类器(弱分类器),然后把这些在不同训练集上得到的分类器集合起来,构成一个更强的最终的分类器(强分类器)。理论证明,只要每个弱分类器分类能力比随机猜测要好,当其个数趋向于无穷个数时,强分类器的错误率将趋向于零。AdaBoost算法中不同的训练集是通过调整每个样本对应的权重实现的。最开始的时候,每个样本对应的权转载 2012-05-26 13:26:04 · 1191 阅读 · 0 评论 -
Adaboost from Baidu
http://www.doc88.com/p-74284867720.html boost一篇不错的ppt一、Boosting算法的发展历史 Boosting算法是一种把若干个分类器整合为一个分类器的方法,在boosting算法产生之前,还出现过两种比较重要的将多个分类器整合为一个分类器的方法,即boostrapping方法和bagging方法。我们先简要介绍一下boots转载 2012-05-26 13:28:23 · 1204 阅读 · 1 评论 -
基于libsvm的中文文本分类原型
支持向量机(Support Vector Machine)是Cortes和Vapnik于1995年首先提出的,它在解决小样本 、非线性及高维模式识别 中表现出许多特有的优势,并能够推广应用到函数拟合等其他机器学习问题中。支持向量机方法是建立在统计学习理论的VC 维理论和结构风险最小 原理基础上的,根据有限的样本信息在模型的复杂性(即对特定训练样本的学习精度,Accuracy)和学习能力(即无错误地转载 2012-12-28 10:21:06 · 2603 阅读 · 1 评论 -
CRF++使用
前段时间写了中文分词的一些记录里面提到了CRF的分词方法,近段时间又研究了一下,特把方法写下来,以备忘,另外,李沫南同学优化过CRF++,见:http://www.coreseek.cn/opensource/CRF/。我觉得CRF++还有更大的优化空间,以后有时间再搞。 1 下载和安装CRF的概念,请google,我就不浪费资源啦。官方地址如下:http://crfpp.sour转载 2012-12-28 11:01:15 · 7027 阅读 · 0 评论 -
PyMining
PyMining-开源中文文本数据挖掘平台 Ver 0.1发布项目首页:http://code.google.com/p/python-data-mining-platform/ (可能需翻墙)目前已经在该googlecode中加入了Tutorial等内容,可以在wiki中查看 项目介绍(复制自项目首页的说明):这是一个能够根据源数据(比如说转载 2013-01-09 11:47:52 · 2023 阅读 · 0 评论 -
Entropy推导
信息论 信息是关于事物的运动状态和规律的认识,它可以脱离具体的事物而被摄取、传输、存贮、处理和变换。 信息论,就是用数理统计方法研究信息的基本性质以及度量方法,研究最佳解决信息的摄取、传输、存贮、处理和变换的一般规律的科学。它的成果将为人们广泛而有效地利用信息提供基本的技术方法和必要的理论基础。 信息论的研究范围分成三种不同类型: (1)狭义信息论是一门转载 2013-06-13 23:34:47 · 2009 阅读 · 1 评论 -
IR领域标准
信息检索评价是对信息检索系统性能(主要满足用户信息需求的能力)进行评估的活动。通过评估可以评价不同技术的优劣,不同因素对系统的影响,从而促进本领域研究水平的不断提高。信息检索系统的目标是较少消耗情况下尽快、全面返回准确的结果。IR的评价指标,通常分为三个方面:(1)效率(Efficiency)—可以采用通常的评价方法:时间开销、空间开销、响应速度。(2)效果(Effectivene转载 2013-06-03 16:03:01 · 3443 阅读 · 0 评论 -
聚类Introducion
http://blog.sina.com.cn/s/blog_6002b97001014nja.html4、聚类聚类分析提供由个别数据对象到数据对象所指派到簇的抽象。此外,一些聚类技术使用簇原型(即代表簇中其他对象的数据对象)来刻画簇的特征。聚类分析是研究发现最具有代表性的簇原型的技术。回归和PCA的时间复杂度都是O(m2)。注意:簇的定义是不精确的,而最好的定义依赖于数据的特转载 2013-05-27 17:17:55 · 3957 阅读 · 1 评论 -
SVM特点
本文转自牛牛草堂SVM有如下主要几个特点:(1)非线性映射是SVM方法的理论基础,SVM利用内积核函数代替向高维空间的非线性映射;(2)对特征空间划分的最优超平面是SVM的目标,最大化分类边际的思想是SVM方法的核心;(3)支持向量是SVM的训练结果,在SVM分类决策中起决定作用的是支持向量。(4)SVM 是一种有坚实理论基础的新颖的小样本学习方法。它基本上不涉及概率测转载 2013-05-22 10:17:23 · 6082 阅读 · 0 评论 -
Logistic回归
转自别处 有很多与此类似的文章 也不知道谁是原创 因原文由少于错误 所以下文对此有修改并且做了适当的重点标记(横线见的内容没大明白 并且有些复杂,后面的运行流程依据前面的得出的算子进行分类) 初步接触谓LR分类器(Logistic Regression Classifier),并没有什么神秘的。在分类的情形下,经过学习之后的LR分类器其实就是一组权值w0,w1,...,w转载 2013-05-06 22:52:25 · 73338 阅读 · 6 评论 -
BookList
[收藏]最近看到的机器学习、NLP相关书单2013年04月01日 ⁄ 读书 ⁄ 共 310字 ⁄ 评论数 3 ⁄ 被围观 557 阅读+书单再多,不去读,也是白搭~~水木上的machine learning书单:http://www.newsmth.net/bbscon.php?bid=5&id=34859&ftype=11weibo上@转载 2013-04-19 10:18:41 · 934 阅读 · 0 评论 -
Text Mining Blog
http://www.blogjava.net/fullfocus原创 2013-03-11 12:06:03 · 974 阅读 · 0 评论 -
EasyToLife的博客
http://www.cnblogs.com/LeftNotEasy/原创 2013-01-09 11:48:28 · 660 阅读 · 0 评论 -
EM Alogrithm
EM算法所谓EM算法,指的是就是Expect-Maximum算法,是一种非常有用的算法。假设这么一个问题,我们有一堆样本集合X,我们已知该样本总体的分布类型(比如是高斯分布),但是我们不知道这个分布的参数具体是多少,我们希望有方法能够根据这些观测到的样本集合来估计出这个分布的参数。怎么办呢?于是就有了极大似然估计,该方法思路很简单,计算出这些样本出现的分布概率公转载 2012-07-03 11:08:53 · 1202 阅读 · 0 评论 -
Latent dirichlet allocation note
2 Latent Dirichlet Allocation IntroductionLDA是给文本建模的一种方法,它属于生成模型。生成模型是指该模型可以随机生成可观测的数据,LDA可以随机生成一篇由N个主题组成文章。通过对文本的建模,我们可以对文本进行主题分类,判断相似度等。在90年代提出的LSA中,通过对向量空间进行降维,获得文本的潜在语义空间。在LDA中则是通过将文本映射到主题空间转载 2012-03-29 18:55:19 · 13317 阅读 · 5 评论 -
Simple Introduction to Dirichlet Process
http://hi.baidu.com/zcfeiyu123/blog/item/c1fb38dad544ae275982dd97.html转载 2012-03-27 10:50:44 · 770 阅读 · 0 评论 -
狄拉克δ函数(Dirac Delta function)
PS:狄拉克δ函数(Dirac Delta function)又称单位脉冲函数。通常用δ表示。在概念上,它是这么一个“函数”:在除了零以外的点都等于零,而其在整个定义域上的积分等于 1 。严格来说狄拉克δ函数不能算是一个函数,因为满足以上条件的函数是不存在的。但可以用分布的概念来解释,称为狄拉克δ分布,或δ分布,但与费米-狄拉克分布是两回事。在广义函数论里也可以找到δ函数的解释,此时δ转载 2012-04-19 14:07:00 · 29780 阅读 · 1 评论 -
伽马贝塔函数
在数理方程、概率论等学科经常遇到以下的含参变量的积分 , 它们依次为第一类和第二类欧拉(Euler 1707~1783 瑞士数学家)积分,或依次称为贝塔(Bata)函数和伽马(Gamma)函数,这一节主要讨论这两个函数的若干性质。 11.3.1 伽马函数显然,我们应首先考虑伽马函数转载 2012-03-31 12:34:32 · 14775 阅读 · 2 评论 -
人工智能——归结演绎推理
人工智能——归结演绎推理1. 子句1) 文字:原子谓词及其否定定义1:任何文字的析取式称为子句定义2:不包含任何文字的子句称为空子句,子句是永假的 2) 由子句构成的集合称为子句集,谓词公式成子句集的步骤a) 利用等价关系消去谓词公式中的、 b) 利用下列等价关系把“”移到紧靠谓词的位置转载 2011-10-26 09:46:56 · 8410 阅读 · 0 评论 -
求置信区间
英文为:binomial proportion confidence interval一.正态近似——最常见和常用的 它的英文名:normal approximation interval.此公式适用于二项分布的大样本。是否为大样本的一个近似的必要的条件是: 这个区间应完全在(0,1)区间之内。对公式的更多了解:http://en.wikip转载 2012-02-20 11:17:52 · 5751 阅读 · 0 评论 -
Latent semantic analysis note(LSA)
1 LSA IntroductionLSA(latent semantic analysis)潜在语义分析,也被称为LSI(latent semantic index),是Scott Deerwester, Susan T. Dumais等人在1990年提出来的一种新的索引和检索方法。该方法和传统向量空间模型(vector space model)一样使用向量来表示词(terms)转载 2012-03-29 18:58:20 · 21364 阅读 · 4 评论 -
关于Latent Dirichlet Allocation及Hierarchical LDA模型的必读文章和相关代码
LDA和HLDA:(1)D. M. Blei, et al., "Latent Dirichlet allocation," Journal of Machine Learning Research, vol. 3, pp. 993-1022, 2003.(2)T. L. Griffiths and M. Steyvers, "Finding scientific topics,"转载 2012-03-27 11:07:02 · 2781 阅读 · 0 评论 -
准确率召回率
http://blog.sina.com.cn/s/blog_4b59de070100ehl7.html最近一直在做相关推荐方面的研究与应用工作,召回率与准确率这两个概念偶尔会遇到,知道意思,但是有时候要很清晰地向同学介绍则有点转不过弯来。召回率和准确率是数据挖掘中预测、互联网中的搜索引擎等经常涉及的两个概念和指标。召回率:Recall,又称“查全率”——还是查全率好记,也更能体现转载 2012-05-18 10:13:25 · 40323 阅读 · 8 评论 -
Entropy
相对熵(relative entropy)又称为KL散度(Kullback–Leibler divergence,简称KLD),信息散度(information divergence),信息增益(informationgain)。 KL散度是两个概率分布P和Q差别的非对称性的度量。 KL散度是用来 度量使用基于Q的编码来编码来自P的样本平均所需的额外的比特个数。 典型情况下,P表示数据的转载 2012-05-18 09:43:19 · 1317 阅读 · 0 评论 -
LDA
关键所在:it posits that each document is a mixture of a small number of topics and that each word's creation is attributable to one of the document's topics。将文档看成是一组主题的混合,词有分配到每个主题的概率。Probabilis转载 2012-03-27 10:44:54 · 2517 阅读 · 0 评论 -
基本文本聚类方法
转自:http://hi.baidu.com/yaomohan/blog/item/e7b1c2c2516638110ef477cc.html经过N天的努力,我的第一个文本聚类小程序终于火热出炉了.真不容易啊,在网上看了很多程序才明白其中的核心原理。其实原理很简单,但这个程序最麻烦的是 一些细节,比如字符串的处理还有用什么样的数据结构来存储数据等等,这些才是最麻烦的。下面我会详细介绍我所总结的转载 2012-03-22 10:52:53 · 22681 阅读 · 0 评论 -
Latent dirichlet allocation note -- Prepare
转自莘莘学子blog : http://ljm426.blog.163.com/blog/static/120003220098110425415/By: Zhou, Blog: http://foreveralbum.yo2.cn1 基础知识1.1 贝叶斯统计假设有两个箱子,每个箱子装了8个球,A箱子3个红球5个白球,B箱子6个红球2个白球。如果问从A箱子转载 2012-03-21 10:29:02 · 1507 阅读 · 0 评论 -
Beli Makfile for linux
.SUFFIXES: .c .uCC= gcc# CFLAGS_MAC = -g -Wall -O3 -DHAVE_INLINE -DGSL_RANGE_CHECK_OFF -Winline -funroll-loops -fstrict-aliasing -fsched-interblock -falign-loops=16 -falign-jumps=16 -falign-functi原创 2012-04-25 13:12:35 · 852 阅读 · 0 评论 -
决策树ID3算法
http://leon-a.javaeye.com/blog/1785851.背景知识:决策树是对数据进行分类,以此达到预测的目的。该决策树方法先根据训练集数据形成决策树,如果该树不能对所有对象给出正确的分类,那么选择一些例外加入到训练集数据中,重复该过程一直到形成正确的决策集。决策树代表着决策集的树形结构。决策树由决策结点、分支和叶子组成。决策树中最上面的结点为根结点,每个分转载 2012-01-25 21:07:10 · 4174 阅读 · 2 评论 -
Karush-Kuhn-Tucker 最优化条件 (KKT 条件)(转载)
一般地,一个最优化数学模型能够表示成下列标准形式:所谓 Karush-Kuhn-Tucker 最优化条件,就是指上式的最小点 x* 必须满足下面的条件: KKT最优化条件是Karush[1939]以及Kuhn和Tucker[1951]先后独立发表出來的。这组最优化条件在Kuhn和Tucker发表之后才逐渐受到重视,因此许多书只记载成「Kuhn转载 2012-02-04 23:37:48 · 11241 阅读 · 0 评论 -
拉格朗日 SVM KKT
在R中使用支持向量机(SVM)(1)1. 线性SVM 假设有分布在Rd空间中的数据,我们希望能够在该空间上找出一个超平面(Hyper-pan),将这一数据分成两类。属于这一类的数据均在超平面的同侧,而属于另一类的数据均在超平面的另一侧。如下图。转载 2012-02-04 23:39:28 · 17159 阅读 · 8 评论 -
SVM中的Karush-Kuhn-Tucker条件和对偶问题
因为这里公式编辑不方便,为求严谨,写在word上截图,图片边缘缺失的字,下面补上。需要满足的条件。 线性组合。两个拉格朗日乘子不同的地方在于条件也是KKT条件之一。 可以直接套用二次规划。如果反过来,如何将对偶式对偶回原来的目标式?转载 2012-02-04 23:47:32 · 3096 阅读 · 0 评论 -
学习SVM
【转载请注明出处】http://www.cnblogs.com/jerrylead1 简介支持向量机基本上是最好的有监督学习算法了。最开始接触SVM是去年暑假的时候,老师要求交《统计学习理论》的报告,那时去网上下了一份入门教程,里面讲的很通俗,当时只是大致了解了一些相关概念。这次斯坦福提供的学习材料,让我重新学习了一些SVM知识。我看很多正统的讲法都是从VC 维理论和结构风险最转载 2012-03-14 22:10:40 · 6938 阅读 · 3 评论