机器学习实战——学习笔记(二)

第二章——K-近邻算法

img

算法介绍(k-Nearest Neighbor)

k-近邻算法是分类数据最简单最有效的算法,k采用测量不同特征值之间的距离方法进行分类

算法原理:存在一个样本数据集合,也称作训练样本集,并且样本集中每个数据都存在标签,即我们知道样本集中每一数据与所属分类的对应关系。输入没有标签的新数据后,将新数据的每个特征与样本集中数据对应的特征进行比较,然后算法提取样本集中特征最相似数据(最近邻)的分类标签。

​ 最后选择k个最相似数据中出现次数最多的分类,作为新数据的分类。

k-近邻算法伪代码

对未知类别属性的数据集中的每个点依次执行以下操作:

(1) 计算已知类别数据集中的点与当前点之间的距离

(2) 按照距离递增次序排序

(3) 选取与当前点距离最小的k个点(k的由来)

(4) 确定前k个点所在类别的出现频率

(5) 返回前k个点出现频率最高的类别作为当前点的预测分类

L2距离计算(欧氏距离)

N个特征值
d ( I 1 , I 2 ) = ∑ p = 1 N ( I 1 p − I 2 p ) 2 d(I_{1},I_{2})=\sqrt{\sum_{p=1}^{N}(I_{1}^{p}-I_{2}^{p})^{2}} d(I1,I2)=p=1N(I1pI2p)2

k-近邻算法的一般流程

(1) 收集数据:可以使用任何方法。

(2) 准备数据:距离计算所需要的数值,最好是结构化的数据格式。

(3) 分析数据:可以使用任何方法。

(4) 训练算法:此步骤不适用于k-近邻算法。

(5) 测试算法:计算错误率。

(6) 使用算法:首先需要输入样本数据和结构化的输出结果,然后运行k-近邻算法判定输入数据分别属于哪个分类,最后应用对计算出的分类执行后续的处理。

算法缺陷

1.k-近邻算法必须保存全部数据集,如果训练数据集的很大,必须使用大量的存储空间。此外,由于必须对数据集中的每个数据计算距离值,实际使用时可能非常耗时。

2.k-近邻算法无法给出任何数据的基础结构信息,因此我们也无法知晓平均实例样本和典型实例样本具有什么特征。

算法示例
import matplotlib.pyplot as plt
import numpy as np

引入原始数据

# load data from file导入txt数据
def load_data(filename):
    dataset = []
    label = []
    file = open(filename)
    for line in file.readlines():  # 逐行读取
        lineArr = line.strip().split('\t')  # 分割字符串
        dataset.append(lineArr[0:3])  # 前三列为数据
        label.append(lineArr[-1])  # 最后一列为标签
    return np.array(dataset, dtype=np.float64),\
        np.array(label, dtype=np.int)  # 返回值为数据和标签的数组


data, label = load_data("datingTestSet2.txt")
print(data.shape, label.shape)  # 打印数组规模

画出原始数据分布图(对k近邻算法有一个直观认识)

def plot(x, y):
    label1 = np.where(y.ravel() == 1)
    plt.scatter(x[label1, 0], x[label1, 1], marker='x',
                color='r', label='didnt like=1')
    label2 = np.where(y.ravel() == 2)
    plt.scatter(x[label2, 0], x[label2, 1], marker='*',
                color='b', label='smallDoses=2')
    label3 = np.where(y.ravel() == 3)
    plt.scatter(x[label3, 0], x[label3, 1], marker='.',
                color='y', label='largeDoses=3')
    plt.xlabel('pilot distance')
    plt.ylabel('game time')
    plt.legend(loc='upper left')
    plt.title("Raw data")
    plt.show()


plot(data, label)

数据预处理

归一化的原因:使用L2距离公式的时候,如果某个属性数据差值大,对于计算结果的影响也大,然而特征值的权重应该根据现实情况来调节。某个属性往往不应该如此严重地影响计算结果。

# 因为特征数据的范围不一样,所以需要归一化
# 公式:newvalue = (oldvalue - min) / (max - min)
# 这里将数据变成0-1之间,而不是0中心化


def normalFeature(x):
    x_min = np.min(x, axis=0)
    x_max = np.max(x, axis=0)
    x_new = (x - x_min) / (x_max - x_min)
    return x_new, x_min, x_max


x_new, x_min, x_max = normalFeature(data)
print(x_new.shape)
print(x_min)

手动实现一个k-近邻算法

class KNearestNeighbor(object):
    # 输入训练数据集
    def train(self, X, y):
        self.X_train = X
        self.y_train = y

    # 预测测试数据的分类结果
    def predict(self, X_test, y_test, k=1, display=True):
        dist = self.distance(X_test)
        num_test = X_test.shape[0]
        y_pred = np.zeros(num_test)
        for i in range(num_test):
            closest_y = []
            closest_y = self.y_train[np.argsort(dist[i])[:k]]
            y_pred[i] = np.argmax(np.bincount(closest_y))
            # 每过10次输出一次测试结果
            if (i % 10 == 0) & display:
                print("prediction is %d,the real is %d" %
                      (y_pred[i], y_test[i]))
        return y_pred

    # 将测试数据按照特征值与训练数据进行L2距离计算
    def distance(self, X_test):
        num_test = X_test.shape[0]
        num_train = self.X_train.shape[0]

        dist = np.zeros((num_test, num_train))
        for i in range(num_test):
            dist[i] = np.sqrt(
                np.sum(np.square(self.X_train - X_test[i]), axis=1))
        return dist

划分训练集测试集,并训练测试

# 划分训练和测试集合
rate = 0.1  # 划分的概率
m = data.shape[0]
m_test = int(m * rate)
x_train = x_new[m_test:m, :]
y_train = label[m_test:m]
x_test = x_new[0:m_test, :]
y_test = label[0:m_test]
print(x_train.shape, x_test.shape)
print(y_train.shape, y_test.shape)


# 训练测试一下
classify = KNearestNeighbor()
classify.train(x_train, y_train)
y_test_pred = classify.predict(x_test, y_test, k=3)
# 输出测试准确率
acc = np.mean(y_test == y_test_pred)
print("the test accuracy is ", acc)

使用算法

result = ["didnt like", "small dose", "large dose"]
input = np.array([[10000, 10, 0.5]])
# 一定记得使用train_set的min和max把数据标准化
input_new = (input-x_min) / (x_max - x_min)
pred = classify.predict(input_new, y_test, k=3, display=False)
print(pred)
print("you will probablly like this person:", result[int(pred[0])-1])

程序与数据

链接:https://pan.baidu.com/s/16G2uSqzng_uPVM96Mxp08g
提取码:gv19

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值