前言
最近正是跳槽季,可是最近许多的HR朋友却经常在群里或者朋友圈里抱怨,说现在的应届毕业生们跳槽跳的太快,“应届生来了两周就走人,我还什么都没教给他呢!”“招人的速度赶不上他们离职的速度啊!”
而离职人员又委屈伸冤:“钱又少事又多,企业当我们免费劳动力吗?”“你们公司不适合我,我还留着干嘛呢?”
那么问题来了,对于刚进入职场的这些新人们来说,到底工作多久跳槽才合适呢?
首先要强调的,就是三个月内最好不要辞职或者跳槽
from sklearn import tree
from sklearn.datasets import load_wine
from sklearn.model_selection import train_test_split
2、探索数据
wine = load_wine() #读取红酒数据集
wine.data #特征数据
wine.target # 标签
wine.feature_names #特征名
wine.target_names #标签名
#如果wine是一张表,应该长这样:
import pandas as pd
pd.concat([pd.DataFrame(wine.data),pd.DataFrame(wine.target)],axis=1)
3、划分训练集和测试集
#划分30%的数据作为测试集
Xtrain, Xtest, Ytrain, Ytest = train_test_split(wine.data, wine.target, test_size=0.3)
Xtrain.shape #训练集: 124行,13个标签
Xtest.shape #测试集: 54行,13个标签
wine.data.shape #初始数据集: 178行,13个标签
4、建立模型(只有一个参数criterion)
clf = tree.DecisionTreeClassifier(criterion=“entropy”) #建模
clf = clf.fit(Xtrain, Ytrain) #训练模型
score = clf.score(Xtest, Ytest) #返回预测的准确度
score
5、画出一棵树吧
feature_name = [‘酒精’,‘苹果酸’,‘灰’,‘灰的碱性’,‘镁’,‘总酚’,‘类黄酮’,‘非黄烷类酚类’,‘花青素’,‘颜色强度’,‘色调’,‘od280/od315稀释葡萄酒’,‘脯氨酸’]
import graphviz
dot_data = tree.export_graphviz(clf, #模型
feature_names = feature_name, #特征名
class_names = [‘琴酒’, ‘雪莉’, ‘贝尔摩德’], #分类名
filled = True, #填充颜色表示不同的分类
rounded = True #圆角显示
)
graph = graphviz.Source(dot_data)
graph
6、探索决策树
clf.feature_importances_ #特征重要性
[*zip(feature_name, clf.feature_importances_)]
[(‘酒精’, 0.0),
(‘苹果酸’, 0.0),
(‘灰’, 0.0),
(‘灰的碱性’, 0.0),
(‘镁’, 0.05809139359761723),
(‘总酚’, 0.0),
(‘类黄酮’, 0.42809846427963527),
(‘非黄烷类酚类’, 0.0),
(‘花青素’, 0.0),
(‘颜色强度’, 0.18211551456095545),
(‘色调’, 0.0),
(‘od280/od315稀释葡萄酒’, 0.0),
(‘脯氨酸’, 0.331694627561792)]
我们已经在只了解一个参数的情况下,建立了一棵完整的决策树。但是回到步骤4建立模型,score会在某个值附近波动,引起步骤5中画出来的每一棵树都不一样。它为什么会不稳定呢?如果使用其他数据集,它还会不稳定吗?
我们之前提到过,无论决策树模型如何进化,在分枝上的本质都还是追求某个不纯度相关的指标的优化,而正如我们提到的,不纯度是基于节点来计算的,也就是说,决策树在建树时,是靠优化节点来追求一棵优化的树,但最优的节点能够保证最优的树吗?集成算法被用来解决这个问题:sklearn表示,既然一棵树不能保证最优,那就建更多的不同的树,然后从中取最好的。怎样从一组数据集中建不同的树?在每次分枝时,不从使用全部特征,而是随机选取一部分特征,从中选取不纯度相关指标最优的作为分枝用的节点。这样,每次生成的树也就不同了。
clf = tree.DecisionTreeClassifier(criterion=“entropy”,random_state=30)
clf = clf.fit(Xtrain, Ytrain)
score = clf.score(Xtest, Ytest) #返回预测的准确度
score
[](()random_state、splitter
random_state 用来设置分枝中的随机模式的参数,默认None,在高维度时随机性会表现更明显,低维度的数据(比如鸢尾花数据集),随机性几乎不会显现。输入任意整数,会一直长出同一棵树,让模型稳定下来。
splitter 也是用来控制决策树中的随机选项的,有两种输入值,
-
输入
best
,决策树在分枝时虽然随机,但是还是会优先选择更重要的特征进行分枝(重要性可以通过属性feature_importances_
查看) -
输入
random
,决策树在分枝时会更加随机,树会因为含有更多的不必要信息而更深更大,并因这些不必要信息而降低对训练集的拟合。这也是防止过拟合的一种方式。
当你预测到你的模型会过拟合,用这两个参数来帮助你降低树建成之后过拟合的可能性。当然,树一旦建成,我们依然是使用剪枝参数来防止过拟合。
clf = tree.DecisionTreeClassifier(criterion=“entropy”
,random_state=30
,splitter=“random”
)
clf = clf.fit(Xtrain, Ytrain) #训练模型
score = clf.score(Xtest, Ytest) #返回预测的准确度
score
import graphviz
dot_data = tree.export_graphviz(clf
,feature_names= feature_name
<