机器学习
resourse_sharing
这个作者很懒,什么都没留下…
展开
-
PRML读书会第二章 Probability Distributions
PRML读书会第二章 Probability Distributions开始吧,先不要发言了,先讲PRML第二章Probability Distributions。今天的内容比较多,还是边思考边打字,会比较慢,大家不要着急,上午讲不完下午会接着讲。顾名思义,PRML第二章Probability Distributions的主要内容有:伯努利分布、 二项式 –beta共轭分布、多项式分布转载 2015-02-02 17:36:52 · 866 阅读 · 0 评论 -
NLP/ML/SML/DM etc. website
1、Python机器学习工具:http://scikit-learn.org/stable/index.html2、统计学:统计之都,http://cos.name/to be updating原创 2016-01-12 19:11:33 · 591 阅读 · 0 评论 -
双聚类的研究与进展
近年来随着基因芯片和DNA微阵列等高通量检测技术的发展,产生了众多的基因表达数据。对这些数据进行有效的分析已经成为后基因组时代的研究重点。一般的聚类是根据数据的全部属性将数据聚类,这种聚类方式称为传统聚类。传统聚类只能寻找全局信息,无法找到局部信息,而大量的生物学信息就隐藏在这些局部信息中。为了更好地在数据矩阵中搜索局部信息,人们提出双聚类概念,目前这种聚类方法得到了越来越广泛的应用转载 2016-03-07 09:59:42 · 13662 阅读 · 0 评论 -
特征处理(Feature Processing)
特征处理(Feature Processing)Nov 15, 2014特征工程(Feature Engineering)经常被说为机器学习中的black art,这里面包含了很多不可言说的方面。怎么处理好特征,最重要的当然还是对要解决问题的了解。但是,它其实也有很多科学的地方。这篇文章我之所以命名为特征处理(Feature Processing),是因为这里面要介绍的东西只是特征转载 2016-03-07 17:49:46 · 1711 阅读 · 0 评论 -
AUC、ROC、ACC区别
很多时候我们都用到ROC(receiver operating characteristic curve,受试者工作特征曲线)和AUC(Area Under Curve,被定义为ROC曲线下的面积)来评判一个二值分类器的优劣,其实AUC跟ROC息息相关,AUC就是ROC曲线下部分的面积,所以需要首先知道什么是ROC,ROC怎么得来的。然后我们要知道一般分类器会有个准确率ACC,那么既然有了转载 2016-05-25 13:01:25 · 19950 阅读 · 2 评论 -
SVM中决策距离(函数)计算
sklearn中的SVM算法使用了liblinear和libsvm两个包,而且模型参数略有区别。在sklearn中,SVM有SVC和SVR之分,且有四种核函数如下,所以在SVM的参数中有些模型需要,有些模型不需要。linear: .polynomial: . is specified by keyword degree, by coef0.rbf: . is原创 2016-05-30 16:10:57 · 17693 阅读 · 1 评论 -
LibLinear使用及与Lib的区别
本文主要基于liblinear-1.93版本的README文件。里面介绍了liblinear的详细使用方法。更多信息请参考: http://www.csie.ntu.edu.tw/~cjlin/liblinear/在这里我用到的是LibLinear的Matlab接口,这个在下一博文中介绍。 LIBLINEAR是一个简单的求解大规模规则化线性分类和回归的软件包转载 2016-05-19 12:16:00 · 3821 阅读 · 0 评论 -
参加kaggle竞赛是怎样一种体验?
作者:Naiyan Wang链接:http://www.zhihu.com/question/24533374/answer/34631808来源:知乎著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。先贴下Kaggle Profile以示诚意:Winsty | Kaggle 我是KDD Cup专业户,虽然每年做的都不是特别好。。。和一些Kaggle专业户们无转载 2016-06-07 20:15:05 · 8696 阅读 · 1 评论 -
xgboost: 速度快效果好的boosting模型
本文作者:何通,SupStat Inc(总部在纽约,中国分部为北京数博思达信息科技有限公司)数据科学家,加拿大Simon Fraser University计算机学院研究生,研究兴趣为数据挖掘和生物信息学。主页:https://github.com/hetong007引言在数据分析的过程中,我们经常需要对数据建模并做预测。在众多的选择中,randomForest, gb转载 2016-06-06 15:00:34 · 1671 阅读 · 0 评论 -
word embedding
Embedding在数学上表示一个maping, f: X -> Y, 也就是一个function,其中该函数是injective(就是我们所说的单射函数,每个Y只有唯一的X对应,反之亦然)和structure-preserving (结构保存,比如在X所属的空间上X1 通俗的翻译可以认为是单词嵌入,就是把X所属空间的单词映射为到Y空间的多维向量,那么该多维向量相当于嵌入到Y所属空间中,一转载 2016-06-20 14:05:26 · 1099 阅读 · 0 评论 -
CNN(卷积神经网络)、RNN(循环神经网络)、DNN(深度神经网络)的区别
http://www.zhihu.com/question/34681168个人觉得CNN、RNN和DNN不能放在一起比较。DNN是一个大类,CNN是一个典型的空间上深度的神经网络,RNN是在时间上深度的神经网络。推荐你从UFLDL开始看,这是斯坦福深度学习的课程,了解一些神经网络的基础,会对你的学习有很大帮助。=============================分割线=转载 2016-06-20 15:28:00 · 5403 阅读 · 0 评论 -
使用Word Embedding构造文本摘要系
文本摘要是在信息泛滥的时代非常重要的工具,可以帮助用户快速判断文章内容主旨,并以此决定是否值得细看文章内容。本文介绍下我们在2014年底2015年初时,使用WordEmbedding思想来构造文本摘要的一些思路,其中包括一种异常简单的文本摘要实现思路,实验效果证明这种方法虽然简单,可能比传统的TFIDF方法还要简单,但是效果与比较复杂的方法是相当的。这里介绍转载 2016-08-22 17:28:41 · 1916 阅读 · 0 评论 -
机器学习算法与Python实践之逻辑回归(Logistic Regression)
机器学习算法与Python实践之(七)逻辑回归(Logistic Regression)转载 2015-08-25 17:19:30 · 1041 阅读 · 0 评论 -
机器学习中的范数规则化之(一)L0、L1与L2范数
机器学习中的范数规则化之(一)L0、L1与L2范数 今天我们聊聊机器学习中出现的非常频繁的问题:过拟合与规则化。我们先简单的来理解下常用的L0、L1、L2和核范数规则化。最后聊下规则化项参数的选择问题。这里因为篇幅比较庞大,为了不吓到大家,我将这个五个部分分成两篇博文。知识有限,以下都是我一些浅显的看法,如果理解存在错误,希望大家不吝指正。谢谢。转载 2015-06-11 17:41:12 · 649 阅读 · 0 评论 -
SVN入门之深入浅出123
(一)SVM的八股简介支持向量机(Support Vector Machine)是Cortes和Vapnik于1995年首先提出的,它在解决小样本、非线性及高维模式识别中表现出许多特有的优势,并能够推广应用到函数拟合等其他机器学习问题中[10]。支持向量机方法是建立在统计学习理论的VC 维理论和结构风险最小原理基础上的,根据有限的样本信息在模型的复杂性(即对特定训练样本的学习精度,Ac转载 2015-05-05 17:17:46 · 4832 阅读 · 0 评论 -
干货:机器学习领域的几种主要学习方式
学习方式 根据数据类型的不同,对一个问题的建模有不同的方式。在机器学习或者人工智能领域,人们首先会考虑算法的学习方式。在机器学习领域,有几种主要的学习方式。将算法按照学习方式分类是一个不错的想法,这样可以让人们在建模和算法选择的时候考虑能根据输入数据来选择最合适的算法来获得最好的结果。 监督式学习: 在监督式学习下,输入数据被称为“训练数据”,每组训练数据有一个明确的转载 2015-01-14 19:34:33 · 1190 阅读 · 0 评论 -
GBDT(MART) 迭代决策树入门教程 | 简介
GBDT(Gradient Boosting Decision Tree) 又叫 MART(Multiple Additive Regression Tree),是一种迭代的决策树算法,该算法由多棵决策树组成,所有树的结论累加起来做最终答案。它在被提出之初就和SVM一起被认为是泛化能力(generalization)较强的算法。近些年更因为被用于搜索排序的机器学习模型而引起大家关注。GBDT主要由三个概念组成:Regression Decistion Tree(即DT),Gradient Boosting转载 2015-01-20 19:22:13 · 731 阅读 · 0 评论 -
Python 文本分类:使用scikit-learn 机器学习包进行文本分类
阅我做的项目是对评论进行有用性(helpfulness)分类,把评论分成有用和没用两类。在之前已经有使用机器学习方法进行情感分类了,现在是提取各种可能影响评论有用性的特征之后对文本进行分类。我分析的数据是手机商品评论,看看我提取了些什么特征(特征和情感分类的特征不一样了。情感分类使用的是词来做特征,但这里用的是已经计算出的各项数值作为特征)。我提取了(一转载 2015-02-28 17:15:47 · 6942 阅读 · 0 评论 -
隐马尔可夫模型(HMM)攻略
隐马尔可夫模型 (Hidden Markov Model,HMM) 最初由 L. E. Baum 和其它一些学者发表在一系列的统计学论文中,随后在语言识别,自然语言处理以及生物信息等领域体现了很大的价值。平时,经常能接触到涉及 HMM 的相关文章,一直没有仔细研究过,都是蜻蜓点水,因此,想花一点时间梳理下,加深理解,在此特别感谢 52nlp 对 HMM的详细介绍。 考虑下面交通灯的例转载 2015-02-27 17:54:26 · 731 阅读 · 1 评论 -
AdaBoost算法介绍
Adaboost是一种迭代算法,其核心思想是针对同一个训练集训练不同的分类器(弱分类器),然后把这些弱分类器集合起来,构成一个更强的最终分类器(强分类器)。其算法本身是通过改变数据分布来实现的,它根据每次训练集之中每个样本的分类是否正确,以及上次的总体分类的准确率,来确定每个样本的权值。将修改过权值的新数据集送给下层分类器进行训练,最后将每次训练得到的分类器最后融合起来,作为最后的决策分类器。使用转载 2015-02-27 17:45:36 · 699 阅读 · 0 评论 -
谱聚类算法原理介绍
1. 谱聚类给你博客园上若干个博客,让你将它们分成K类,你会怎样做?想必有很多方法,本文要介绍的是其中的一种——谱聚类。聚类的直观解释是根据样本间相似度,将它们分成不同组。谱聚类的思想是将样本看作顶点,样本间的相似度看作带权的边,从而将聚类问题转为图分割问题:找到一种图分割的方法使得连接不同组的边的权重尽可能低(这意味着组间相似度要尽可能低),组内的边的权重尽可能高(这意味着组内相似度要尽转载 2015-03-02 17:36:57 · 1459 阅读 · 0 评论 -
谱聚类算法(Spectral Clustering)
谱聚类算法(Spectral Clustering)谱聚类(Spectral Clustering, SC)是一种基于图论的聚类方法——将带权无向图划分为两个或两个以上的最优子图,使子图内部尽量相似,而子图间距离尽量距离较远,以达到常见的聚类的目的。其中的最优是指最优目标函数不同,可以是割边最小分割——如图1的Smallest cut(如后文的Min cut), 也可以转载 2015-03-02 15:17:13 · 864 阅读 · 0 评论 -
【scikit-learn】Python分类实例
引入一个机器可以根据照片来辨别鲜花的品种吗?在机器学习角度,这其实是一个分类问题,即机器根据不同品种鲜花的数据进行学习,使其可以对未标记的测试图片数据进行分类。这一小节,我们还是从scikit-learn出发,理解基本的分类原则,多动手实践。Iris数据集Iris flower数据集是1936年由Sir Ronald Fisher引入的经典多维数据集,可以作为判别分析(discrimi转载 2015-03-04 19:29:54 · 4332 阅读 · 1 评论 -
聚类算法实践经验汇总
所谓聚类,就是将相似的事物聚集在一起,而将不相似的事物划分到不同的类别的过程,是数据分析之中十分重要的一种手段。比如古典生物学之中,人们通过物种的形貌特征将其分门别类,可以说就是一种朴素的人工聚类。如此,我们就可以将世界上纷繁复杂的信息,简化为少数方便人们理解的类别,可以说是人类认知这个世界的最基本方式之一。 在数据分析的术语之中,聚类和分类是两种技术。分类是指我们已经知转载 2015-03-11 11:09:40 · 1127 阅读 · 0 评论 -
层次聚类--凝聚(自底向上)和分裂(自顶向下)
1、概念层次聚类就是对数据集采用某种方法逐层地进行分解或者汇聚,直到分出的最后一层的所有的类别数据满足要求为止。所以按照分解或者汇聚的原理的不同,层次聚类可以分为凝聚(agglomerative)和分裂(divisive)两种方法。K-means和k-medias都是划分的聚类算法,而层次聚类就是要把数据自顶向下分裂成或者自底向上合并成一棵树。层次聚类涉及到嵌套聚类,嵌套聚类是指一个聚类中原创 2015-03-10 15:26:31 · 35046 阅读 · 3 评论 -
Python实现贝叶斯推断及其互联网应用:拼写检查
贝叶斯推断及其互联网应用:拼写检查作者: 阮一峰日期: 2012年10月16日使用Google的时候,如果你拼错一个单词,它会提醒你正确的拼法。比如,你不小心输入了seperate。Google告诉你,这个词是不存在的,正确的拼法是separate。这就叫做"拼写检查"(spelling corrector)。有好几种方法转载 2015-04-20 18:33:15 · 1309 阅读 · 0 评论 -
HMM的介绍及实现
HMM基本原理Markov链:如果一个过程的“将来”仅依赖“现在”而不依赖“过去”,则此过程具有马尔可夫性,或称此过程为马尔可夫过程。马尔可夫链是时间和状态参数都离散的马尔可夫过程。HMM是在Markov链的基础上发展起来的,由于实际问题比Markov链模型所描述的更为复杂,观察到的时间并不是与状态一一对应的,而是通过一组概率分布相联系,这样的模型称为HMM。HMM是双重随机过程:其中之一是M转载 2017-01-22 10:54:14 · 8066 阅读 · 0 评论