接触机器学习一段时间了,知道它有四种分类:监督学习、无监督学习、半监督学习、强化学习;也知道它的一般步骤:收集数据-->准备数据-->分析数据-->选择模型-->训练模型-->评估模型;知道数据越多测试结果就越准确。
但是,作为一理工女,不动手就不理解,有很多疑团,怎么让一堆样本做为数据输入,怎么训练数据让模型更好,通过什么方法来评估算法,等等等等。
然而,一切通过python编程可以解开模糊不清。资源也会单独上传。
首先是kNN算法。
kNN(k-NearestNeighbor)概述:给一堆数据,每一条数据都要有类别标签,然后输入一条没有类别标签的数据,将这条数据的特征(就是这条数据本身)跟已经存在类别标签的数据一一比较,按相似度排序,找出最相似的k(一般不大于20的整数)条数据,看这k条数据中哪个类别多,那这条新数据就是那个类别。
可能只看文字描述还是不太清晰明了。接下来……
(一)准备数据集。具体的数据是数值型的矩阵如:
[[1.0, 1.1],
[1.0,