《python数据挖掘入门与实践》笔记1

最新推荐文章于 2024-07-30 13:41:33 发布

Joker江

最新推荐文章于 2024-07-30 13:41:33 发布

阅读量2.5k

点赞数

分类专栏： python数据挖掘文章标签： python 数据挖掘

本文链接：https://blog.csdn.net/jokertony/article/details/60967856

版权

本文介绍了使用Python进行数据挖掘，通过OneR算法对iris数据集进行处理。首先导入数据，接着将连续数据离散化，然后实现OneR算法，包括train_feature_value和train_on_feature函数。利用sklearn库划分训练集和测试集，找出最佳特征并创建预测模型。最终测试模型的准确率为76.3%，与书中的68%有所差异，作者对此进行了反思并推测可能的原因。

摘要由CSDN通过智能技术生成

1.导入iris植物数据集，包含150个sample。X是一个4元组，包含特征：sepal length、 sepal width、 petal length、 petal width。Y是每个sample的分类情况，分类有三种情况（0，1，2）表示。

from sklearn.datasets import load_iris
dataset=load_iris()
X=dataset.data
Y=dataset.target

2.将连续的数据离散化。以平均值做阈值。

attribute_mean= X.mean(axis=0)
X_d=np.array(X>=attribute_mean,dtype=’int’)

from collections import defaultdict
from operator import itemgetter

3.实现OneR算法。
X是特征集，y_ture是分类信息，feature_index表示用第几个特征来分类，value表示特征值。（zip（）函数：将两个元组一一对应）
train_feature_value函数统计了y类中第feature_index个特征值为value的sample个数

def train_feature_value(X,y_true,feature_index,value):
class_counts=defaultdict(int)
for sample ,y in zip(X,y_true):
if sample[feature_index]==value:
class_counts[y]+=1