机器学习笔记——Knn

最新推荐文章于 2024-03-29 23:02:37 发布

Thuranna

最新推荐文章于 2024-03-29 23:02:37 发布

阅读量126

点赞数

分类专栏：数据分析

本文链接：https://blog.csdn.net/gbxiaowang/article/details/107434487

版权

数据分析专栏收录该内容

1 篇文章 0 订阅

订阅专栏

原理：

K近邻是个分类算法。存在一个标注好的数据集，输入没有标签的新数据后，计算新数据与标注好数据之间的距离，根据距离远近进行排序，选择前k个数据，统计k个数据中，各类别的占比，将待分类的新数据归为占比多的类别中。

距离：
距离是确定两样本间相似度的标志，常用的距离定义有很多种，一般采用欧式距离。

import numpy as np
def Eucli_dist(x,y):
	x=np.array(x)#转成数组形式后，可以直接进行向量的加减
	y=np.array(y)
	return np.sqrt(np.sum((x-y)**2))

应用时，在计算完距离后，还要给距离加权，是为了改进由样本分布不均衡产生的分类误差，常用加权函数为高斯

def gaussian_we(x,y,sigma=10):
	weight=np.exp(-(Eucli_dist(x,y))**2/(2*sigma**2))
	return weight

统计一下有些什么类

def lei_num(target):
	lei=[]
	for i in target:
		if i not in lei:
			lei.append(i)
	return lei

简陋版knn

from collections import Counter
#存在一训练集data.以及它的标注target，待分类样本input,以及k值
def Knn(data,target,input,k)：
	dist=[]
	#计算样本中的每个点和待分类样本的距离
	for i in range(data.shape[0]):
		dist.append(Eucli_dist(input,data[i]))
	#argsort函数默认是按由小到大排序，并返回下标
	dist_l=np.argsort(dist)
	target_1=target[dist_l]#按之前排好的下标排一下target的顺序
	target_2=target_1[:k]#选前面k个，统计其中存在最多的类别
	lei_shu=Counter(target_2)
	max=lei_shu.most_common(1)#这个函数是显示其中排名前几的元素，括号中的1表示显示排在第一位，若是2，表示前两位
	max=pd.DataFrame(max)#上一步提出来的元素格式特殊，转换为字典我才知道提取。
	return max[0][0]

sklearn上有封装好的knn函数，可以直接调用。

from sklearn.neighbors import KNeighborsClassifier 
knn = KNeighborsClassifier() 
knn.fit(x_train, y_train) #训练分类器
y_predict = knn.predict(x_test)#预测值
score=knn.score(x_test,y_test,sample_weight=None)#计算准确率

Thuranna

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
机器学习笔记——Knn

原理：K近邻是个分类算法。存在一个标注好的数据集，输入没有标签的新数据后，计算新数据与标注好数据之间的距离，根据距离远近进行排序，选择前k个数据，统计k个数据中，各类别的占比，将待分类的新数据归为占比多的类别中。距离：距离是确定两样本间相似度的标志，常用的距离定义有很多种，一般采用欧式距离。import numpy as npdef Eucli_dist(x,y): x=np.array(x)#转成数组形式后，可以直接进行向量的加减 y=np.array(y) return np.sqr
复制链接

扫一扫