PythonStudy1

最新推荐文章于 2024-09-15 22:31:42 发布

言山兮尺川

最新推荐文章于 2024-09-15 22:31:42 发布

阅读量341

点赞数

文章标签： python sklearn 机器学习

本文链接：https://blog.csdn.net/qq_44309220/article/details/125857641

版权

文章目录

一、前言
二、流程展示
三、总结

一、前言

本文利用 Python 的第三方库来对一个没有经过任何处理的 excel 表格进行处理

并对处理后的数据采用 KNN 算法来实现分类.

二、流程展示

1. 获取数据

由于数据文件敏感就不此展示. 简要描述一下所需要做的工作就是截取一部分列作为新的数据源, 在 excel 文件最后一列表示的是不同的分类.

这里我采用了第三方库 Pandas 通过暴力列举在表格中需要的列, 然后就有这样的代码.

import pandas as pd

# Get column 5,6,7,8,9,10,11,12,13,14,15,16,27 except head
data = pd.read_excel("./test.xlsx", usecols=[5,6,7,8,9,10,11,12,13,14,15,16,27],names=None)
df = data.values.tolist()
feature = []
label = []

for i in range(len(df)):
    feature.append(df[i][:-1])

    if df[i][-1] == "差气层":
        label.append(0)
    elif df[i][-1] == "干层":
        label.append(1)
    elif df[i][-1] == "气层":
        label.append(2)
    else:
        label.append(3)

print(feature)

print(label)

运行截图

2. 划分训练集和测试集

利用 sklearn 第三方库中的 train_test_split 类很轻松的就将已有数据划分出了训练集和测试集, 它们两个之间的比例是 3:1.

from sklearn.model_selection import train_test_split

feature_train_set,feature_test_set,label_train_set,label_test_set = train_test_split(feature,label)

print("feature_train_set:")
print( feature_train_set)

print("feature_test_set:")
print( feature_test_set)

print("label_train_set:")
print( label_train_set)

print("label_test_set:")
print( label_test_set)

运行截图

3. 创建分类器分类并进行测试

from sklearn.neighbors import KNeighborsClassifier

sklearn_knn_clf = KNeighborsClassifier(n_neighbors = 3)

sklearn_knn_clf.fit(feature_train_set,label_train_set)

sklearn_knn_clf.score(feature_test_set,label_test_set)