Mhout/机器学习
翔飞天宇
资料共享,相互学习,共同进步
展开
-
Deeplearning 教程
http://deeplearning.stanford.edu/wiki/index.php/UFLDL教程原创 2013-12-12 11:55:37 · 1049 阅读 · 0 评论 -
用Maven构建Mahout开发环境 环境
用Maven构建Mahout开发环境原创 2015-09-24 18:07:48 · 2518 阅读 · 0 评论 -
Mahout中相似度距离计算方法总结
在分类聚类算法,推荐系统中,常要用到两个输入变量(通常是特征向量的形式)距离的计算,即相似性度量.不同相似性度量对于算法的结果,有些时候,差异很大.因此,有必要根据输入数据的特征,选择一种合适的相似性度量方法.原创 2015-09-24 15:57:41 · 3221 阅读 · 0 评论 -
Mahout推荐算法API详解
用Mahout来构建推荐系统,是一件既简单又困难的事情。简单是因为Mahout完整地封装了“协同过滤”算法,并实现了并行化,提供非常简单的API接口;困难是因为我们不了解算法细节,很难去根据业务的场景进行算法配置和调优。本文将深入算法API去解释Mahout推荐算法底层的一些事。转载 2015-09-24 16:02:50 · 560 阅读 · 0 评论 -
Mahout算法集[机器学习算法]
Mahout算法集[机器学习算法]原创 2015-09-24 16:20:10 · 780 阅读 · 0 评论 -
bias and variance
在A Few Useful Thingsto Know about Machine Learning中提到,可以将泛化误差(gener-alization error)分解成bias和variance理解。 Bias: a learner’s tendency to consistently learn the same wrong thing,即度量了某种学习算法的平均估计结果所能逼近学转载 2015-12-22 15:25:26 · 564 阅读 · 0 评论 -
分类算法中的ROC与PR指标
做过图像识别、机器学习或者信息检索相关研究的人都知道,论文的实验部分都要和别人的算法比一比。可怎么比,人多嘴杂,我说我的方法好,你说你的方法好,各做各的总是不行——没规矩不成方圆。于是慢慢的大家就形成了一种约定,用ROC曲线和PR曲线来衡量算法的优劣。关于ROC曲线和PR曲线的详细介绍可参考资料:ROC Analysis and the ROC Convex HullTom Fawce原创 2016-05-11 15:37:11 · 803 阅读 · 0 评论 -
李文哲博士-贝叶斯思想以及与最大似然估计、最大后验估计的区别
ML-最大似然估计MAP-最大后验估计贝叶斯估计三者的关系及区别(本篇博客来自2016年4月16日晚上,小象学院组织的李文哲老师的微课转载注明) 一。机器学习 核心思想是从past experience中学习出规则,从而对新的事物进行预测。对于监督学习来说,有用的样本数目越多,训练越准确。用下图来表示机器学习的过程及包含的知识:简单来说就是:首先要原创 2016-04-17 22:52:29 · 6319 阅读 · 0 评论 -
机器学习中的数据清洗与特征处理综述
文章转载自:http://tech.meituan.com/machinelearning-data-feature-process.html机器学习中的数据清洗与特征处理综述caohao ·2015-02-10 11:30背景随着美团交易规模的逐步增大,积累下来的业务数据和交易数据越来越多,这些数据是美团做为一个团购平台最宝贵的财富。通过对这些数据的分析和挖掘,不仅能转载 2016-05-26 14:35:14 · 615 阅读 · 0 评论 -
从源代码剖析Mahout推荐引擎
本文将介绍Mahout推荐引擎的程序设计。原创 2015-09-24 16:25:27 · 1771 阅读 · 0 评论 -
Mahout的taste推荐系统里的几种Recommender分析
Mahout 是apache下的一个java语言的开源大数据机器学习项目,与其他机器学习项目不同的是,它的算法多数是mapreduce方式写的,可以在hadoop上运行,并行化处理大规模数据。原创 2015-09-24 16:22:18 · 788 阅读 · 0 评论 -
李政轩讲核方法kernel Method 视频笔记
Kernel的基本思想是,将低维空间不可分数据映射到高纬度的空间,比如说左图的数据是线性不可分的,原创 2015-10-22 20:25:47 · 4620 阅读 · 0 评论 -
k-d tree算法的研究[转]
By RaySaint 2011/10/12动机先前写了一篇文章《SIFT算法研究》讲了讲SIFT特征具体是如何检测和描述的,其中也提到了SIFT常见的一个用途就是物体识别,物体识别的过程如下图所示:如上图(a),我们先对待识别的物体的图像进行SIFT特征点的检测和特征点的描述,然后得到了SIFT特征点集合。接下来生成物体目标描述要做的就是对特征点集合进行数据组织,形成一种特殊的表原创 2014-10-07 01:05:43 · 569 阅读 · 0 评论 -
剪枝理论
剪枝理论,决策树的剪枝在上一节中没有仔细讲,趁这个机会学习了剪枝的基础理论,这里会详细学习。决策树为什么(WHY)要剪枝?原因是避免决策树过拟合(Overfitting)样本。前面的算法生成的决策树非常详细并且庞大,每个属性都被详细地加以考虑,决策树的树叶节点所覆盖的训练样本都是“纯”的。因此用这个决策树来对训练样本进行分类的话,你会发现对于训练样本而言,这个树表现完好,误差率极低且能够正原创 2015-08-11 20:29:43 · 2484 阅读 · 1 评论 -
ID3算法
ID3算法是J. Ross Quinlan在1975提出的分类预测算法,当时还没有数据挖掘吧,哈哈哈。该算法的核心是“信息熵”,属于数学问题,我也是从这里起发现数据挖掘最底层最根本的不再是编程了,而是数学,编程只是一种实现方式而已,数学才是基础,如:朴素贝叶斯分类,小波聚类,尤其是我正在搞的支持向量机,它就是高等代数,空间解析几何,概率统计的综合应用。记得读本科时,朱琛学姐说过,数学学得再好也不为原创 2015-08-11 10:17:01 · 784 阅读 · 0 评论 -
决策树ID3、C4.5、CART算法:信息熵,区别,剪枝理论总结
今天学习了决策树算法中的ID3、c4.5、CART算法,记录如下: 决策树算法:顾名思义,以二分类问题为例,即利用自变量构造一颗二叉树,将目标变量区分出来,所有决策树算法的关键点如下: 1.分裂属性的选择。即选择哪个自变量作为树叉,也就是在n个自变量中,优先选择哪个自变量进行分叉。而采用何种计算方式选择树叉,决定了决策树算法的类型,即ID3、c4.5、CART三种决策树算法选择原创 2015-08-11 10:12:06 · 24722 阅读 · 1 评论 -
mahout学习路线
mahout,机器学习,数据挖掘,推荐算法原创 2015-09-17 11:24:46 · 682 阅读 · 0 评论 -
李政轩 PCA and KPCA
李政轩 PCA and KPCA原创 2015-10-22 23:58:00 · 6967 阅读 · 0 评论 -
支持向量机SVM(一):支持向量机SVM的推倒:从logistic回归,到函数间隔,集合间隔,到寻找最优间隔分类器。
支持向量机SVM的推倒:从logistic回归,到函数间隔,集合间隔,到寻找最优间隔分类器。原创 2015-10-23 15:01:57 · 3436 阅读 · 0 评论 -
判别模型 和 生成模型
【摘要】 - 生成模型:无穷样本==》概率密度模型 = 产生模型==》预测 - 判别模型:有限样本==》判别函数 = 预测模型==》预测原创 2015-10-23 17:04:17 · 505 阅读 · 0 评论 -
机器学习中的范数规则化之(一)L0、L1与L2范数
机器学习中的范数规则化之(一)L0、L1与L2范数zouxy09@qq.comhttp://blog.csdn.net/zouxy09 今天我们聊聊机器学习中出现的非常频繁的问题:过拟合与规则化。我们先简单的来理解下常用的L0、L1、L2和核范数规则化。最后聊下规则化项参数的选择问题。这里因为篇幅比较庞大,为了不吓到大家,我将这个五个部分分成两篇博文。知识有限,以下都转载 2016-09-04 23:35:46 · 532 阅读 · 0 评论