机器学习
RayBreslin
大数据开发、设计企业应用
展开
-
Spark ML(1):环境搭建以及向量和矩阵创建
一、实现目的服务器搭建spark2.1.0开发环境,并且配置环境。然后,通过scala编写机器学习基本的数据结构:向量和矩阵。二、环境搭建1.spark环境搭建参考博客https://blog.csdn.net/u010886217/article/details/832791572.需要开启服务(在上面blog里面都有)(1)namenode、DataNode(2)m...原创 2019-05-11 10:17:25 · 1003 阅读 · 0 评论 -
Spark ml报错:Error:scalac: missing or invalid dependency detected while loading class file ‘SQLImplici
一、问题描述采用spark2.3.0的 ml库进行推荐算法建模,但是,运行代码到如下推荐个数的时候...model.recommendForAllUsers(7).show(false)...报错如下图:具体报错如下:Information:Module "sparktest" was fully rebuilt due to project configura...原创 2019-05-24 13:53:08 · 3020 阅读 · 0 评论 -
机器学习(4):PCA主成分分析法实例
一、简介1.Principal Component Analysis2.用途:降维中最常用的一种手段,可用于数据压缩、提取重要信息等领域。3.目标:基于方差提取最有价值的信息二、PCA求解原理1.优化目标(1)第一个目标:将一组N维向量降为K维(K大于0,小于N),目标是选择K个单位(模为1)正交基,使原始数据变换到这组基上后,各字段两两间协方差为0(2)第二个目标:每...原创 2019-01-13 18:57:30 · 2520 阅读 · 0 评论 -
机器学习(3):PCA主成分分析法-理论基础:内积、基变换、方差、协方差、协方差矩阵
一、理论必要性PCA需要矩阵和概率论基础知识,例如内积、基变换、方差、协方差、协方差矩阵等。只有理解这些基础知识,才可以更好理解PCA原理,以及应用场景。二、基础知识1.向量内积(1)内积(2)解释其中:(3)物理含义:即A在B向量上的投影,乘以B向量的模(长度)。特例:设向量B的模为1,则A与B的内积值等于A向B所在直线投影的矢量长度。2.基变换(...原创 2019-01-13 16:56:03 · 1778 阅读 · 0 评论 -
机器学习(2):DBSCAN聚类算法
一、DBSCAN算法基本概念1.全称:Density-Based Spatial Clustering of Applications with Noise 基于密度带有噪声聚类2.核心对象:若某个点的密度达到算法设定的阈值则其为核心点。(即某点的r 邻域内,点的数量不小于设定阈值 minPoints)3.半径r:邻域的距离阈值:设定的半径r4.直接密度可达:若某点p在点q的 r ...原创 2019-01-12 11:40:34 · 1135 阅读 · 0 评论 -
机器学习(1):K-MEANS聚类算法
一、聚类简介1.无监督问题:我们手里没有标签了2.聚类:相似的东西分到一组3.难点:如何评估,如何调参二、基本概念:1.K:要得到簇的个数,需要指定K2.质心:均值,即向量各维取平均3.距离的度量:常用欧几里得距离和余弦相似度(先标准化)4.优化目标(1)Ci代表第i个簇的中心(2)x是属于Ci的点(3)dist:为distance距离,即欧几里得距离(4)目标为...原创 2019-01-11 08:25:38 · 1848 阅读 · 1 评论 -
Spark ML(2):常规统计(统计汇总、相关性分析、假设检验)
一、实现功能常规统计方法,可以在作进一步处理之前,对整体数据集有一个理性的了解。对后续处理,可以提高效率,以及准确性。二、统计汇总1.功能在使用spark机器学习训练前,使用统计汇总函数,可以大致了解数据集总体情况2.参考:官网http://spark.apache.org/docs/2.1.0/mllib-statistics.html官方实例:***import or...原创 2019-05-11 10:43:13 · 1723 阅读 · 0 评论