第二章——K-近邻算法
算法介绍(k-Nearest Neighbor)
k-近邻算法是分类数据最简单最有效的算法,k采用测量不同特征值之间的距离方法进行分类
算法原理:存在一个样本数据集合,也称作训练样本集,并且样本集中每个数据都存在标签,即我们知道样本集中每一数据与所属分类的对应关系。输入没有标签的新数据后,将新数据的每个特征与样本集中数据对应的特征进行比较,然后算法提取样本集中特征最相似数据(最近邻)的分类标签。
最后选择k个最相似数据中出现次数最多的分类,作为新数据的分类。
k-近邻算法伪代码
对未知类别属性的数据集中的每个点依次执行以下操作:
(1) 计算已知类别数据集中的点与当前点之间的距离
(2) 按照距离递增次序排序
(3) 选取与当前点距离最小的k个点(k的由来)
(4) 确定前k个点所在类别的出现频率
(5) 返回前k个点出现频率最高的类别作为当前点的预测分类
L2距离计算(欧氏距离)
N个特征值
d
(
I
1
,
I
2
)
=
∑
p
=
1
N
(
I
1
p
−
I
2
p
)
2
d(I_{1},I_{2})=\sqrt{\sum_{p=1}^{N}(I_{1}^{p}-I_{2}^{p})^{2}}
d(I1,I2)=p=1∑N(I1p−I2p)2
k-近邻算法的一般流程
(1) 收集数据:可以使用任何方法。
(2) 准备数据:距离计算所需要的数值,最好是结构化的数据格式。
(3) 分析数据:可以使用任何方法。
(4) 训练算法:此步骤不适用于k-近邻算法。
(5) 测试算法:计算错误率。
(6) 使用算法:首先需要输入样本数据和结构化的输出结果,然后运行k-近邻算法判定输入数据分别属于哪个分类,最后应用对计算出的分类执行后续的处理。
算法缺陷
1.k-近邻算法必须保存全部数据集,如果训练数据集的很大,必须使用大量的存储空间。此外,由于必须对数据集中的每个数据计算距离值,实际使用时可能非常耗时。
2.k-近邻算法无法给出任何数据的基础结构信息,因此我们也无法知晓平均实例样本和典型实例样本具有什么特征。
算法示例
import matplotlib.pyplot as plt
import numpy as np
引入原始数据
# load data from file导入txt数据
def load_data(filename):
dataset = []
label = []
file = open(filename)
for line in file.readlines(): # 逐行读取
lineArr = line.strip().split('\t') # 分割字符串
dataset.append(lineArr[0:3]) # 前三列为数据
label.append(lineArr[-1]) # 最后一列为标签
return np.array(dataset, dtype=np.float64),\
np.array(label, dtype=np.int) # 返回值为数据和标签的数组
data, label = load_data("datingTestSet2.txt")
print(data.shape, label.shape) # 打印数组规模
画出原始数据分布图(对k近邻算法有一个直观认识)
def plot(x, y):
label1 = np.where(y.ravel() == 1)
plt.scatter(x[label1, 0], x[label1, 1], marker='x',
color='r', label='didnt like=1')
label2 = np.where(y.ravel() == 2)
plt.scatter(x[label2, 0], x[label2, 1], marker='*',
color='b', label='smallDoses=2')
label3 = np.where(y.ravel() == 3)
plt.scatter(x[label3, 0], x[label3, 1], marker='.',
color='y', label='largeDoses=3')
plt.xlabel('pilot distance')
plt.ylabel('game time')
plt.legend(loc='upper left')
plt.title("Raw data")
plt.show()
plot(data, label)
数据预处理
归一化的原因:使用L2距离公式的时候,如果某个属性数据差值大,对于计算结果的影响也大,然而特征值的权重应该根据现实情况来调节。某个属性往往不应该如此严重地影响计算结果。
# 因为特征数据的范围不一样,所以需要归一化
# 公式:newvalue = (oldvalue - min) / (max - min)
# 这里将数据变成0-1之间,而不是0中心化
def normalFeature(x):
x_min = np.min(x, axis=0)
x_max = np.max(x, axis=0)
x_new = (x - x_min) / (x_max - x_min)
return x_new, x_min, x_max
x_new, x_min, x_max = normalFeature(data)
print(x_new.shape)
print(x_min)
手动实现一个k-近邻算法
class KNearestNeighbor(object):
# 输入训练数据集
def train(self, X, y):
self.X_train = X
self.y_train = y
# 预测测试数据的分类结果
def predict(self, X_test, y_test, k=1, display=True):
dist = self.distance(X_test)
num_test = X_test.shape[0]
y_pred = np.zeros(num_test)
for i in range(num_test):
closest_y = []
closest_y = self.y_train[np.argsort(dist[i])[:k]]
y_pred[i] = np.argmax(np.bincount(closest_y))
# 每过10次输出一次测试结果
if (i % 10 == 0) & display:
print("prediction is %d,the real is %d" %
(y_pred[i], y_test[i]))
return y_pred
# 将测试数据按照特征值与训练数据进行L2距离计算
def distance(self, X_test):
num_test = X_test.shape[0]
num_train = self.X_train.shape[0]
dist = np.zeros((num_test, num_train))
for i in range(num_test):
dist[i] = np.sqrt(
np.sum(np.square(self.X_train - X_test[i]), axis=1))
return dist
划分训练集测试集,并训练测试
# 划分训练和测试集合
rate = 0.1 # 划分的概率
m = data.shape[0]
m_test = int(m * rate)
x_train = x_new[m_test:m, :]
y_train = label[m_test:m]
x_test = x_new[0:m_test, :]
y_test = label[0:m_test]
print(x_train.shape, x_test.shape)
print(y_train.shape, y_test.shape)
# 训练测试一下
classify = KNearestNeighbor()
classify.train(x_train, y_train)
y_test_pred = classify.predict(x_test, y_test, k=3)
# 输出测试准确率
acc = np.mean(y_test == y_test_pred)
print("the test accuracy is ", acc)
使用算法
result = ["didnt like", "small dose", "large dose"]
input = np.array([[10000, 10, 0.5]])
# 一定记得使用train_set的min和max把数据标准化
input_new = (input-x_min) / (x_max - x_min)
pred = classify.predict(input_new, y_test, k=3, display=False)
print(pred)
print("you will probablly like this person:", result[int(pred[0])-1])
程序与数据
链接:https://pan.baidu.com/s/16G2uSqzng_uPVM96Mxp08g
提取码:gv19