机器学习(二)决策树之儿童入学推荐_上学好处 决策树(1)

先自我介绍一下,小编浙江大学毕业,去过华为、字节跳动等大厂,目前阿里P7

深知大多数程序员,想要提升技能,往往是自己摸索成长,但自己不成体系的自学效果低效又漫长,而且极易碰到天花板技术停滞不前!

因此收集整理了一份《2024年最新软件测试全套学习资料》,初衷也很简单,就是希望能够帮助到想自学提升又不知道该从何学起的朋友。
img
img
img
img
img

既有适合小白学习的零基础资料,也有适合3年以上经验的小伙伴深入学习提升的进阶课程,涵盖了95%以上软件测试知识点,真正体系化!

由于文件比较多,这里只是将部分目录截图出来,全套包含大厂面经、学习笔记、源码讲义、实战项目、大纲路线、讲解视频,并且后续会持续更新

如果你需要这些资料,可以添加V获取:vip1024b (备注软件测试)
img

正文

推荐入学预测

实验内容

给定一个数据集合nursery.txt。该数据集包含12960个入学儿童的自身及家庭状况以及是否推荐他们入学,目标是找到决策树模型可以将这些数据拟合,从而对是否入学做出预测分析,同时通过计算它的均方误差来评价拟合的好坏。


一、详细步骤

(1) 从这个网址下载nursery.data,然后将修改扩展名,将其修改成Python容易处理的nursery.txt文件
(2) 导入相关的包
(3) 读取数据,加载到numpy数组中
(4) 对数据进行标记编码
(5) 将数据分为训练集和测试集
(6) 使用训练集拟合普通的决策树模型和AdaBoost的决策树模型
(7) 将测试数据代入训练好的两个模型,得到用标记编码表示的测试结果
(8) 将测试结果反标记编码,转换为原来的字符串形式
(9) 通过计算均方误差和可释方差分数评估两个模型的拟合效果

二、实现代码

import numpy as np
from sklearn.tree import DecisionTreeRegressor
from sklearn.ensemble import AdaBoostRegressor
from sklearn.metrics import mean_squared_error,explained_variance_score
from sklearn import preprocessing

if name == ‘__main__’:
input_file = ‘nursery.txt’

读取数据

schooling_data = []
y = []
count = 0
with open(input_file, ‘r’) as f:
for line in f.readlines():
data = line[:-1].split(‘,’)
schooling_data.append(data)

schooling_data = np.array(schooling_data)

对数据进行标记编码

label_encoder = []
X_encoded = np.empty(schooling_data.shape)

for i,item in enumerate(schooling_data[0]):
label_encoder.append(preprocessing.LabelEncoder())
X_encoded[:, i] = label_encoder[-1].fit_transform(schooling_data[:, i])

X = X_encoded[:, :-1].astype(int)
y = X_encoded[:, -1].astype(int)

将数据分成训练数据集合测试数据集

num_training = int(0.7*len(X))

X_train, y_train = X[:num_training], y[:num_training]
X_test, y_test = X[num_training:], y[num_training:]

拟合一个决策树回归模型,限制最大深度为4

dt_regressor = DecisionTreeRegressor(max_depth=4)
dt_regressor.fit(X_train, y_train)

再用AdaBoost算法的决策树回归模型进行拟合

ab_regressor = AdaBoostRegressor(DecisionTreeRegressor(max_depth=4),
n_estimators=400, random_state=7)

第一个参数是基分类器,n_estimators 基分类器循环次数,random_state随机种子设置

ab_regressor.fit(X_train, y_train)

将训练数据代入普通的决策树

y_pred_dt = dt_regressor.predict(X_test)

预测结果暂时以数字形式保存在这个列表中,不一定是整数,可以通过后期设置条件,将其转换成整数。

最后反标记编码,输出想要的字符串形式。

y_pred_dt_string = []
print(y_pred_dt.shape)

for i in range(3888 - 1):
if (y_pred_dt[i] >= 1 and y_pred_dt[i] <= 1.4):
y_pred_dt_string.append(‘not_recom’)
if (y_pred_dt[i] > 1.4 and y_pred_dt[i] <= 2.4):
y_pred_dt_string.append(‘priority’)
if (y_pred_dt[i] > 2.4 and y_pred_dt[i] <= 3.4):

网上学习资料一大堆,但如果学到的知识不成体系,遇到问题时只是浅尝辄止,不再深入研究,那么很难做到真正的技术提升。

需要这份系统化的资料的朋友,可以添加V获取:vip1024b (备注软件测试)
img

一个人可以走的很快,但一群人才能走的更远!不论你是正从事IT行业的老鸟或是对IT行业感兴趣的新人,都欢迎加入我们的的圈子(技术交流、学习资源、职场吐槽、大厂内推、面试辅导),让我们一起学习成长!
.(img-RcIlCT6p-1713567328878)]

一个人可以走的很快,但一群人才能走的更远!不论你是正从事IT行业的老鸟或是对IT行业感兴趣的新人,都欢迎加入我们的的圈子(技术交流、学习资源、职场吐槽、大厂内推、面试辅导),让我们一起学习成长!

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值