![](https://img-blog.csdnimg.cn/20201014180756928.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
machine leaning
大师兄你家猴跑啦
主要Java 、spark 、大数据技术
展开
-
轻松看懂机器学习十大常用算法
1. 决策树 根据一些 feature 进行分类,每个节点提一个问题,通过判断,将数据分为两类,再继续提问。这些问题是根据已有数据学习出来的,再投入新数据的时候,就可以根据这棵树上的问题,将数据划分到合适的叶子上。 2. 随机森林 在源数据中随机选取数据,组成几个子集 S 矩阵是源数据,有 1-N 条数据,A B C 是feature,最后一列C是类转载 2017-12-07 13:41:39 · 356 阅读 · 0 评论 -
Spark2.0特征提取、转换、选择之一:数据规范化,String-Index、离散-连续特征相互转换
数据规范化(标准化) 在数据预处理时,这两个术语可以互换使用。(不考虑标准化在统计学中有特定的含义)。 下面所有的规范化操作都是针对一个特征向量(dataFrame中的一个colum)来操作的。 首先举一个例子: //MaxAbsScaler例子(参考后面MaxAbsScaler部分) //例子:对特征0,特征1,特征2,分别进行缩放,使得值为[-1,1] //例如特征0,其特征向量为转载 2017-12-13 17:56:45 · 736 阅读 · 0 评论 -
Spark PCA 特征时 java.lang.OutOfMemoryError: Java heap space
1、背景:样本量在2W左右,特征数在1W左右;利用spark 的pca 特征时,总报错 java.lang.OutOfMemoryError: Java heap space;2、解决方法:spark.driver.maxResultSize", "40g" 产生的结果大于默认的1024M,需要的话设置大点; --driver-memory 100g (大点)...原创 2018-03-10 12:56:52 · 976 阅读 · 0 评论 -
PCA 原理分析
1、PCA(Principal Component Analysis)即主成分分析。正如其名,PCA可以找出特征中最主要的特征,把原来的n个特征用k(k < n)个特征代替,去除噪音和冗余。PCA是特征提取、数据降维的常用方法。MLlib中PCA的实现思路:1)原始数据3行4列经过转换得到矩阵A3∗4A3∗42)得到矩阵A3∗4A3∗4的协方差矩阵B4∗4B4∗43)得到协方差矩阵B4∗4B...转载 2018-05-04 11:04:17 · 169 阅读 · 0 评论