机器学习
瀛999
努力学习
展开
-
机器学习基本工作流程
注:此篇博客为转载,尊重原创。原文链接地址为:http://blog.csdn.net/longxinchen_ml/article/details/50749614作者: 龙心尘 && 寒小阳 时间:2016年2月。 出处:http://blog.csdn.net/longxinchen_ml/article/details/50749614 http://blog.cs...转载 2018-07-28 19:28:34 · 375 阅读 · 0 评论 -
Spark MLlib学习(1)--基本统计
Correlation支持的方法有Pearson相关系数和spearman相关系数。Pearson相关系数皮尔逊相关系数用来衡量定距变量的线性关系,取值范围是-1到1,接近0的变量相关性小,接近1或-1的变量相关性大。spearman相关系数斯皮尔曼相关性系数,通常也叫斯皮尔曼秩相关系数。“秩”,可以理解成就是一种顺序或者排序,那么它就是根据原始数据的排序位置进...翻译 2018-08-03 17:09:10 · 655 阅读 · 0 评论 -
机器学习方法简介(1)--线性回归、逻辑回归、神经网络、支持向量机
机器学习方法就是计算机根据已有的数据, 得出某个模型,然后利用此模型预测未来的一种方法。机器学习的一个主要目的就是把人类思考归纳经验的过程转化为计算机通过对数据的处理计算得出模型的过程。1.回归算法回归算法包括线性回归和逻辑回归线性回归使用“最小二乘法”来求解,“最小二乘法”的思想是这样的,假设我们拟合出的直线代表数据的真实值,而观测到的数据代表拥有误差的值。为了尽可能减小误差的影...原创 2018-07-31 12:22:45 · 4800 阅读 · 0 评论 -
机器学习方法简介(2)--决策树、随机森林、朴素贝叶斯
1.决策树决策树是一种用于对实例进行分类的树形结构。Hunt算法是一种采用局部最优策略的决策树构建算法,它同时也是许多决策树算法的基础,包括ID3、C4.5和CART等。Hunt算法的递归定义如下: (1) 如果 中所有记录都属于同一个类,则 t 是叶结点,用 标记。 (2) 如果 中包含属于多个类的记录,则选择一个属性测试条件(attribute test condition),...原创 2018-07-31 15:45:03 · 3531 阅读 · 0 评论 -
机器学习方法简介(3)--kmeans
kmeans是最著名的聚类算法,聚类算法就是计算种群中的距离,根据距离的远近将数据划分为多个族群。kmeans算法首先需要确定k的数量,即全部样本所包含类别的数量。然后选择k个初始中心点,之后我们计算所有样本点与k个中心点之间的距离,对于任意一个样本点,它与哪个中心点距离最小我们就将其分配到该中心点所在类。完成所有样本点的分配后将重新计算中心点。重复上述过程,比较样本点与中心点的距离并将样本点...转载 2018-07-31 19:46:17 · 364 阅读 · 0 评论 -
机器学习方法简介(4)--主成分分析(PCA)
顾名思义,主成分分析方法是找出原始数据中的主要成分,用原始数据的主要成分代替原始数据达到降维的效果。那么我们如果寻找主成分呢?我们可以试图在样本空间中找到一个超平面,使得样本点到这个超平面的距离足够近,或者说样本点在这个超平面上的投影能尽可能的分开,这个超平面的方向即为主成分。经过推导可知(推导过程省略),假如我们需要将n维样本数据映射为维的主成分数据,我们找到协方差矩阵的个最大的特征向量...转载 2018-08-01 13:11:19 · 390 阅读 · 0 评论 -
机器学习方法简介(5)--协同过滤推荐算法
协同过滤推荐算法主要的功能是预测和推荐。算法通过对用户历史行为数据的挖掘发现用户的偏好,基于不同的偏好对用户进行群组划分并推荐品味相似的商品。协同过滤推荐算法分为两类,分别是基于用户的协同过滤算法(user-based collaboratIve filtering),和基于物品的协同过滤算法(item-based collaborative filtering)。1.基于用户的协同过滤算法(...转载 2018-08-01 13:57:43 · 507 阅读 · 0 评论 -
EM算法简介
1.简介 EM算法是一种迭代优化策略,由于它的计算方法中每一次迭代都分两步,其中一个为期望步(E步),另一个为极大步(M步),所以算法被称为EM算法(Expectation Maximization Algorithm)。EM算法受到缺失思想影响,最初是为了解决数据缺失情况下的参数估计问题。其基本思想是:首先根据己经给出的观测数据,估计出模型参数的值;然后再依据上一步估计出的参数值估计缺失数据...转载 2018-08-01 18:52:03 · 5091 阅读 · 0 评论 -
Spark MLlib学习(1)-- Pipelines
基本概念DataFrame机器学习API使用来自Spark SQL的DataFrame作为数据集,它能包括多种数据类型,如文本、特征向量、标签、预测值等。Transformers一个Transformers是一个能转化一个DataFrame到另一个DataFrame的算法,例如,一个model可以转化带有特征的DataFrame为一个带有预测值的DataFrame。Transf...翻译 2018-08-07 10:17:23 · 242 阅读 · 0 评论