机器学习
一.KNN(近朱者赤近墨者黑)
**1.算法原理:**KNN是一种既能用于分类又能用于回归的算法,对于给定的测试样本,基于距离度量找出训练集中距离最近的K个邻居,然后基于这K个邻居来进行预测。
—— 存在一个样本集合(训练样本集),样本集中的每一个数据对象都有标签(类别)。在输入新的数据后将新数据的每个特征与样本集中的数据对应进行特征比较,然后提取最相似的K个样本标签,这K个标签中出现次数最多的就是新数据的分类。
2.算法关键:
- 所有的样本特征都需要做可比较的量化
样本特征中包含非数值类型时,必须采取手段将其量化为数值
- 样本特诊需做归一化处理
样本有多个参数,每一个参数都有自己的定义域和取值范围,他们对距离的计算的影响不同,比如取值较大的会盖过取值较小的参数
- 需要一个合适的距离函数计算两个样本之间的距离
- 确定K的值