问题
用K最近邻算法创建分类系统
学习特征抽取
学习回归,即预测数值
学习K最近邻算法的应用案例和局限性
K最近邻(k-nearest neighbours, KNN)算法
K最近邻算法是指在一个坐标系中(前提是把元素放入坐标系【So,问题来了,怎么把他们放入坐标系?他们在坐标系的位置怎么确定?】),其中一个点的特性或者数值可以由离他最近的几个点求得,(原理是因为,他们所处的位置差不多,其会具有相当大的共性,他们之间更相似一些,这是一种猜测)
想法一:其实不用坐标系也可以,可以使用集合,对于一个未知的集合,可以与其他集合做交集,与其交集最大的几个集合与他最相似
【其实还是寻找共性,判断相似】
【So,问题是什么叫相似?相似的程度如何判定?】
第一个问题:特征抽取
对于不同的系统,不同元素需要考虑的特点不同,可以根据自己的标准将各元素进行数字化,以一个数值集合的形式表示一个元素的特征,
比如对于长方体,可以由长宽高三个标准度量,形成一个(x,y,z)的集合
能否挑选合适的特征事关KNN算法的成败
第二个问题:相似程度的判定
现在已经使用一套标准将元素数值化,
一个元素可能有n个数值来表示,那么其就可以放入一个n维坐标系,
虽然当维数超过4时,我们很难想象这个坐标系具体的样子,可是这并不妨碍我们计算相似程度