ml
文章平均质量分 78
董可伦
博主曾获2014年全国数学建模竞赛国家一等奖;有八年大数据经验,大数据领域专家、CSDN博客专家。Apache Hudi Active Contributor,喜欢开源,擅长并乐于分享Flink、Hudi、Spark等大数据领域的技术
展开
-
Spark ML LR 用 setWeightCol 解决数据不平衡
前言如题,记录在Spark ML LR中如何解决数据不平衡。参考:Dealing with unbalanced datasets in Spark MLlib1、数据不平衡指label == 1和label == 0 的数据比例的很多,如80%和20%,这样导致模型的结果的准确率也不平衡,不准确。2、setWeightCol 主要代码val labelCol = "label"de...原创 2019-12-06 16:42:21 · 1393 阅读 · 1 评论 -
spark ML算法之线性回归使用
本文是讲如何使用spark ml进行线性回归,不涉及线性回归的原理。原创 2018-05-09 20:51:17 · 4524 阅读 · 5 评论 -
spark ML之特征处理(1)
前言最近在学习总结机器学习常用算法,在看spark机器学习决策树的官方示例时,发现用到了几个特征处理的类,之前没学习过,所以查了一下,感觉spark在特征处理方面的类还是挺多的,所以准备总结记录一下相关的用法,首先总结一下决策树中用到的几种。1、VectorIndexer根据源码注释,VectorIndexer是用于在“向量”的数据集中索引分类特征列的类(Class for ind...原创 2018-05-18 16:29:06 · 1854 阅读 · 0 评论