针对西瓜书数据集2.0使用sklearn创建决策树

最新推荐文章于 2023-10-15 15:15:32 发布

beyond19932

最新推荐文章于 2023-10-15 15:15:32 发布

阅读量4.9k

点赞数 5

文章标签：算法决策树 python 机器学习

本文链接：https://blog.csdn.net/beyond19932/article/details/109113958

版权

该博客介绍了如何利用sklearn库在西瓜书数据集2.0上创建决策树模型。内容包括：1) 决策树的简介；2) 数据文件的读取和转换；3) 特征值与标签的数据化；4) 利用train_test_split划分训练集和测试集；5) 模型训练和预测的完整代码展示。

摘要由CSDN通过智能技术生成

针对西瓜书数据集2.0使用sklearn创建决策树

1.分类算法之决策树

决策树是一种常见的机器学习方法，这里我以二分类任务为例，我们希望从给定的训练数据集学得一个模型用以对新示例进行分类。通常决策树学习包括三个步骤：特征选择、决策树的生成和决策树的修剪。这里我将放上数据集图片。在这里插入图片描述如何将数据集转换为excel表格，我简单说一下。首先将新建一个文本文档，将数据集粘贴进入文本文档，点击另存为，将后缀名改为.csv，然后将保存类型换为所有类型。

2.读取数据文件，并转换数据

因为我将数据文件保存为csv文件，所以使用csv.reader()函数来读取文件，然后将数据提取出来转换为[{属性：属性值，属性：属性值}，{属性：属性值，属性：属性值}]的列表，因为这样可以采用sklearn的DictVectorizer()将其转换为数据型列表。将各个样本的标签转换成列表。

data= open(r'D:\python程序\西瓜对率回归\1.csv')
reader = csv.reader(data)#采用csv.reader读取文件
for row in reader:#reader不能直接使用，需要通过循环提取每一行的数据
    headers=row
    break#只需要将属性提取出来
featureList = []#存放属性值的列表
labelList = []#存放标签的列表
for row in reader:
    labelList.append(row[len(row)-1])
    rowDict = {
   }
    for i in range(1, len(row)-1):
        rowDict[headers[i]] = row[i]#保存为{属性：属性值}的字典
    featureList.append(rowDict)

3.将特征值和样本标签数据化

vec = DictVectorizer()  #实例化
dummyX = vec.fit_transform(featureList) .toarray()
print(vec.get_feature_names

最低0.47元/天解锁文章

beyond19932

关注

5
点赞
踩
65

收藏

觉得还不错? 一键收藏
1
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫