《菜菜的机器学习sklearn课堂，tomcat架构解析pdf

didi558

于 2022-04-12 16:41:42 发布

阅读量416

点赞数 1

分类专栏： Java 文章标签：经验分享面试 java

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/didi558/article/details/124128021

版权

前言

最近正是跳槽季，可是最近许多的HR朋友却经常在群里或者朋友圈里抱怨，说现在的应届毕业生们跳槽跳的太快，“应届生来了两周就走人，我还什么都没教给他呢！”“招人的速度赶不上他们离职的速度啊！”

而离职人员又委屈伸冤：“钱又少事又多，企业当我们免费劳动力吗？”“你们公司不适合我，我还留着干嘛呢？”

那么问题来了，对于刚进入职场的这些新人们来说，到底工作多久跳槽才合适呢？

首先要强调的，就是三个月内最好不要辞职或者跳槽

from sklearn import tree

from sklearn.datasets import load_wine

from sklearn.model_selection import train_test_split

2、探索数据

wine = load_wine() #读取红酒数据集

wine.data #特征数据

wine.target # 标签

wine.feature_names #特征名

wine.target_names #标签名

#如果wine是一张表，应该长这样:

import pandas as pd

pd.concat([pd.DataFrame(wine.data),pd.DataFrame(wine.target)],axis=1)

在这里插入图片描述

3、划分训练集和测试集

#划分30%的数据作为测试集

Xtrain, Xtest, Ytrain, Ytest = train_test_split(wine.data, wine.target, test_size=0.3)

Xtrain.shape #训练集: 124行,13个标签

Xtest.shape #测试集: 54行,13个标签

wine.data.shape #初始数据集: 178行,13个标签

4、建立模型（只有一个参数criterion）

clf = tree.DecisionTreeClassifier(criterion=“entropy”) #建模

clf = clf.fit(Xtrain, Ytrain) #训练模型

score = clf.score(Xtest, Ytest) #返回预测的准确度

score

5、画出一棵树吧

feature_name = [‘酒精’,‘苹果酸’,‘灰’,‘灰的碱性’,‘镁’,‘总酚’,‘类黄酮’,‘非黄烷类酚类’,‘花青素’,‘颜色强度’,‘色调’,‘od280/od315稀释葡萄酒’,‘脯氨酸’]

import graphviz

dot_data = tree.export_graphviz(clf, #模型

feature_names = feature_name, #特征名

class_names = [‘琴酒’, ‘雪莉’, ‘贝尔摩德’], #分类名

filled = True, #填充颜色表示不同的分类

rounded = True #圆角显示

)

graph = graphviz.Source(dot_data)

graph

在这里插入图片描述

6、探索决策树

clf.feature_importances_ #特征重要性

[*zip(feature_name, clf.feature_importances_)]

[(‘酒精’, 0.0),

(‘苹果酸’, 0.0),

(‘灰’, 0.0),

(‘灰的碱性’, 0.0),

(‘镁’, 0.05809139359761723),

(‘总酚’, 0.0),

(‘类黄酮’, 0.42809846427963527),

(‘非黄烷类酚类’, 0.0),

(‘花青素’, 0.0),

(‘颜色强度’, 0.18211551456095545),

(‘色调’, 0.0),

(‘od280/od315稀释葡萄酒’, 0.0),

(‘脯氨酸’, 0.331694627561792)]

我们已经在只了解一个参数的情况下，建立了一棵完整的决策树。但是回到步骤4建立模型，score会在某个值附近波动，引起步骤5中画出来的每一棵树都不一样。它为什么会不稳定呢？如果使用其他数据集，它还会不稳定吗？

我们之前提到过，无论决策树模型如何进化，在分枝上的本质都还是追求某个不纯度相关的指标的优化，而正如我们提到的，不纯度是基于节点来计算的，也就是说，决策树在建树时，是靠优化节点来追求一棵优化的树，但最优的节点能够保证最优的树吗？集成算法被用来解决这个问题：sklearn表示，既然一棵树不能保证最优，那就建更多的不同的树，然后从中取最好的。怎样从一组数据集中建不同的树？在每次分枝时，不从使用全部特征，而是随机选取一部分特征，从中选取不纯度相关指标最优的作为分枝用的节点。这样，每次生成的树也就不同了。

clf = tree.DecisionTreeClassifier(criterion=“entropy”,random_state=30)

clf = clf.fit(Xtrain, Ytrain)

score = clf.score(Xtest, Ytest) #返回预测的准确度

score

[](()random_state、splitter

random_state 用来设置分枝中的随机模式的参数，默认None，在高维度时随机性会表现更明显，低维度的数据（比如鸢尾花数据集），随机性几乎不会显现。输入任意整数，会一直长出同一棵树，让模型稳定下来。

splitter 也是用来控制决策树中的随机选项的，有两种输入值，

输入best，决策树在分枝时虽然随机，但是还是会优先选择更重要的特征进行分枝（重要性可以通过属性feature_importances_查看）
输入random，决策树在分枝时会更加随机，树会因为含有更多的不必要信息而更深更大，并因这些不必要信息而降低对训练集的拟合。这也是防止过拟合的一种方式。

当你预测到你的模型会过拟合，用这两个参数来帮助你降低树建成之后过拟合的可能性。当然，树一旦建成，我们依然是使用剪枝参数来防止过拟合。

clf = tree.DecisionTreeClassifier(criterion=“entropy”

,random_state=30

,splitter=“random”

)

clf = clf.fit(Xtrain, Ytrain) #训练模型

score = clf.score(Xtest, Ytest) #返回预测的准确度

score

import graphviz

dot_data = tree.export_graphviz(clf

,feature_names= feature_name

<

最低0.47元/天解锁文章

关注

1
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
《菜菜的机器学习sklearn课堂，tomcat架构解析pdf

前言最近正是跳槽季，可是最近许多的HR朋友却经常在群里或者朋友圈里抱怨，说现在的应届毕业生们跳槽跳的太快，“应届生来了两周就走人，我还什么都没教给他呢！”“招人的速度赶不上他们离职的速度啊！”而离职人员又委屈伸冤：“钱又少事又多，企业当我们免费劳动力吗？”“你们公司不适合我，我还留着干嘛呢？”那么问题来了，对于刚进入职场的这些新人们来说，到底工作多久跳槽才合适呢？首先要强调的，就是三个月内最好不要辞职或者跳槽from sklearn import treefrom sklearn.dataset
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。