机器学习实战——学习笔记(二)

最新推荐文章于 2024-07-10 16:08:35 发布

～citrus～

最新推荐文章于 2024-07-10 16:08:35 发布

阅读量242

点赞数

分类专栏：机器学习文章标签：机器学习 python 算法

本文链接：https://blog.csdn.net/qq_43699254/article/details/104641096

版权

机器学习专栏收录该内容

1 篇文章 0 订阅

订阅专栏

第二章——K-近邻算法

算法介绍(k-Nearest Neighbor)

k-近邻算法是分类数据最简单最有效的算法，k采用测量不同特征值之间的距离方法进行分类

算法原理：存在一个样本数据集合，也称作训练样本集，并且样本集中每个数据都存在标签，即我们知道样本集中每一数据与所属分类的对应关系。输入没有标签的新数据后，将新数据的每个特征与样本集中数据对应的特征进行比较，然后算法提取样本集中特征最相似数据（最近邻）的分类标签。

最后选择k个最相似数据中出现次数最多的分类，作为新数据的分类。

k-近邻算法伪代码

对未知类别属性的数据集中的每个点依次执行以下操作：

(1) 计算已知类别数据集中的点与当前点之间的距离

(2) 按照距离递增次序排序

(3) 选取与当前点距离最小的k个点(k的由来)

(4) 确定前k个点所在类别的出现频率

(5) 返回前k个点出现频率最高的类别作为当前点的预测分类

L2距离计算(欧氏距离)

N个特征值
$d(I_{1},I_{2})=\sqrt{\sum_{p=1}^{N}(I_{1}^{p}-I_{2}^{p})^{2}}$

k-近邻算法的一般流程

(1) 收集数据：可以使用任何方法。

(2) 准备数据：距离计算所需要的数值，最好是结构化的数据格式。

(3) 分析数据：可以使用任何方法。

(4) 训练算法：此步骤不适用于k-近邻算法。

(5) 测试算法：计算错误率。

(6) 使用算法：首先需要输入样本数据和结构化的输出结果，然后运行k-近邻算法判定输入数据分别属于哪个分类，最后应用对计算出的分类执行后续的处理。

算法缺陷

1.k-近邻算法必须保存全部数据集，如果训练数据集的很大，必须使用大量的存储空间。此外，由于必须对数据集中的每个数据计算距离值，实际使用时可能非常耗时。

2.k-近邻算法无法给出任何数据的基础结构信息，因此我们也无法知晓平均实例样本和典型实例样本具有什么特征。

算法示例

import matplotlib.pyplot as plt
import numpy as np

引入原始数据

# load data from file导入txt数据
def load_data(filename):
    dataset = []
    label = []
    file = open(filename)
    for line in file.readlines():  # 逐行读取
        lineArr = line.strip().split('\t')  # 分割字符串
        dataset.append(lineArr[0:3])  # 前三列为数据
        label.append(lineArr[-1])  # 最后一列为标签
    return np.array(dataset, dtype=np.float64),\
        np.array(label, dtype=np.int)  # 返回值为数据和标签的数组


data, label = load_data("datingTestSet2.txt")
print(data.shape, label.shape)  # 打印数组规模

画出原始数据分布图(对k近邻算法有一个直观认识)

def plot(x, y):
    label1 = np.where(y.ravel() == 1)
    plt.scatter(x[label1, 0], x[label1, 1], marker='x',
                color='r', label='didnt like=1')
    label2 = np.where(y.ravel() == 2)
    plt.scatter(x[label2, 0], x[label2, 1], marker='*',
                color='b', label='smallDoses=2')
    label3 = np.where(y.ravel() == 3)
    plt.scatter(x[label3, 0], x[label3, 1], marker='.',
                color='y', label='largeDoses=3')
    plt.xlabel('pilot distance')
    plt.ylabel('game time')
    plt.legend(loc='upper left')
    plt.title("Raw data")
    plt.show()


plot(data, label)

数据预处理

归一化的原因：使用L2距离公式的时候，如果某个属性数据差值大，对于计算结果的影响也大，然而特征值的权重应该根据现实情况来调节。某个属性往往不应该如此严重地影响计算结果。

# 因为特征数据的范围不一样，所以需要归一化
# 公式:newvalue = (oldvalue - min) / (max - min)
# 这里将数据变成0-1之间，而不是0中心化


def normalFeature(x):
    x_min = np.min(x, axis=0)
    x_max = np.max(x, axis=0)
    x_new = (x - x_min) / (x_max - x_min)
    return x_new, x_min, x_max


x_new, x_min, x_max = normalFeature(data)
print(x_new.shape)
print(x_min)

手动实现一个k-近邻算法

class KNearestNeighbor(object):
    # 输入训练数据集
    def train(self, X, y):
        self.X_train = X
        self.y_train = y

    # 预测测试数据的分类结果
    def predict(self, X_test, y_test, k=1, display=True):
        dist = self.distance(X_test)
        num_test = X_test.shape[0]
        y_pred = np.zeros(num_test)
        for i in range(num_test):
            closest_y = []
            closest_y = self.y_train[np.argsort(dist[i])[:k]]
            y_pred[i] = np.argmax(np.bincount(closest_y))
            # 每过10次输出一次测试结果
            if (i % 10 == 0) & display:
                print("prediction is %d,the real is %d" %
                      (y_pred[i], y_test[i]))
        return y_pred

    # 将测试数据按照特征值与训练数据进行L2距离计算
    def distance(self, X_test):
        num_test = X_test.shape[0]
        num_train = self.X_train.shape[0]

        dist = np.zeros((num_test, num_train))
        for i in range(num_test):
            dist[i] = np.sqrt(
                np.sum(np.square(self.X_train - X_test[i]), axis=1))
        return dist

划分训练集测试集，并训练测试

# 划分训练和测试集合
rate = 0.1  # 划分的概率
m = data.shape[0]
m_test = int(m * rate)
x_train = x_new[m_test:m, :]
y_train = label[m_test:m]
x_test = x_new[0:m_test, :]
y_test = label[0:m_test]
print(x_train.shape, x_test.shape)
print(y_train.shape, y_test.shape)


# 训练测试一下
classify = KNearestNeighbor()
classify.train(x_train, y_train)
y_test_pred = classify.predict(x_test, y_test, k=3)
# 输出测试准确率
acc = np.mean(y_test == y_test_pred)
print("the test accuracy is ", acc)

使用算法

result = ["didnt like", "small dose", "large dose"]
input = np.array([[10000, 10, 0.5]])
# 一定记得使用train_set的min和max把数据标准化
input_new = (input-x_min) / (x_max - x_min)
pred = classify.predict(input_new, y_test, k=3, display=False)
print(pred)
print("you will probablly like this person:", result[int(pred[0])-1])

程序与数据

链接：https://pan.baidu.com/s/16G2uSqzng_uPVM96Mxp08g
提取码：gv19

～citrus～

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
机器学习实战——学习笔记(二)

第二章——K-近邻算法算法介绍(k-Nearest Neighbor)k-近邻算法是分类数据最简单最有效的算法，k采用测量不同特征值之间的距离方法进行分类算法原理：存在一个样本数据集合，也称作训练样本集，并且样本集中每个数据都存在标签，即我们知道样本集中每一数据与所属分类的对应关系。输入没有标签的新数据后，将新数据的每个特征与样本集中数据对应的特征进行比较，然后算法提取样本集中特征最相似数...
复制链接

扫一扫