机器学习-算法
分类 聚类 算法
章锡平
道生一,一生二,二生万物。
展开
-
StringIndexer 的使用
StringIndexer对String按频次进行编号idcategorycategoryIndex0a0.01b2.02c1.03a0.04a0.05c1.0如果转换模型(关系)是基于上面数据得到的 (a,b,c)->(0.0,2.0,1.0),如果用此模型转换category多于(a,b,c)的数据,比如...原创 2019-12-02 21:03:08 · 2885 阅读 · 1 评论 -
kNN 分类算法原理
概述K最近邻(k-Nearest Neighbor,KNN)分类算法是最简单的机器学习算法。白话文解释一下,你有一个样本需要判断它的类别(分类),K表示选取离你最近样本的个数,前提是这些样本都有其类别(先验),根据K个数据中哪些类别比较多,来决定你这个样本的类别。KNN算法的指导思想是“近朱者赤,近墨者黑”,由你的邻居来推断出你的类别。本质上,KNN算法就是用距离来衡量样本之间的相似度算...原创 2019-11-26 22:48:45 · 1374 阅读 · 0 评论