前言:
1.引入“监督模式”概念
监督式学习:
训练集有明确答案,监督学习就是寻找问题(又称输入、特征、自变量)与答案(又称输出、目标、因变量)之间关系的学习方式。监督学习模型有两类,分类和回归。
• 分类模型:目标变量是离散的分类型变量;
• 回归模型:目标变量是连续性数值型变量。
无监督学习:只有数据,无明确答案,即训练集没有标签。常见的无监督学习算法有聚类(clustering),由计算机自己找出规律,把有相似属性的样本放在一组,每个组也称为簇(cluster)。
2.KNN算法应用于何种场景?
为解决
在较高相似度的多样本数据集之间,通过不同样本的特征集和与之对应的标签因变量(监督式学习) ,训练出一种模型,在输入测试样本的特征组后,输出所对应的因变量.
可用于构建用户画像以及用户等级分层等实际场景.
正文
KNN(K-NearestNeighbor)概念
在相似度较高的样本中,划分训练样本和测试样本:
1.计算训练样本和测试样本中每个样本点的距离(欧式距离,马氏距离等)
2.对上面所有的距离值进行排序
3.选前k个最小距离的样本