我最近才开始接触机器学习,我大学数学学的几乎忘了,最近才接触python。所以我以一个完全初学者角度来学习机器学习。
我主要用的书籍就是machine learning in action (机器学习实战)这本书。我主要是用文中已有的代码来讲解机器学习。
同时对代码进行大量注释,主要针对初学者以及python刚学的,这样理解透彻。
第一章 K近邻算法kNN(K-NearestNeighbors)
这个算法是最基础的机器学习分类方法。我先给定义。
如果一个样本在特征空间中k个最相似的样本中的大多数属于一类,则这个样本属于这个类别。
书中举出了一个例子。也就是电影的例子。
比如怎么把自己看过的电影进行分类,怎么定义它。
比如把电影分成 爱情片还是动作片。比如有些人通过接吻和武打的次数来来进行分类。图中给出了一些电影的分类按照接吻的次数和武打的次数。
但是现在有一部电影你想知道是爱情片还是动作片。
首先根据以前的数据,比如下表中的电影类别来判别未知电影的类别。
然后我们假设k=3。那么我们对已经算好的上个表格中距离数据排序。找出距离最近的前三位电影。然后我们发现He’sNot Really into Dudes, Beautiful Woman, and Cali