机器学习笔记3

最新推荐文章于 2024-07-11 13:14:55 发布

lxx199603

最新推荐文章于 2024-07-11 13:14:55 发布

阅读量319

点赞数

分类专栏： machine learning 文章标签：机器学习

本文链接：https://blog.csdn.net/lxx199603/article/details/88966128

版权

machine learning 专栏收录该内容

5 篇文章 0 订阅

订阅专栏

信息论基础

决策树的局限性：决策边界是横平竖直的，与坐标轴平行的；对个别样本点很敏感。

回归树

from sklearn.datasets import load_boston
from sklearn.model_selection import train_test_split
from sklearn.tree import DecisionTreeRegressor

boston=load_boston()
X=boston.data
y=boston.target
Xtrain,Xtest,Ytrain,Ytest=train_test_split(X,y)

dtreg=DecisionTreeRegressor(max_depth=4,min_samples_leaf=10,min_samples_split=20,random_state=30,splitter='random').fit(Xtrain,Ytrain)
score=dtreg.score(Xtest,Ytest) # R square
print(score)

防止过拟合

Python代码

这次学决策树，代码部分不能水了。还是老样子，先做一个愉悦的调包侠，日后再手撕算法。

感谢b站up主菜菜TsaiTsai的资料分享~

sklearn机器学习三步走：

实例化
用训练集来训练模型
用测试集来调用信息

所以核心代码只有三行。

https://scikit-learn.org/stable/modules/generated/sklearn.tree.DecisionTreeClassifier.html

参数

这次就不写全所有参数了，只写其中最重要最常用的。

criterion

默认基尼系数，写'entropy'使用信息增益。

一般，数据维度大、噪音大的时候，用基尼系数；感觉模型拟合程度不够的时候，用信息熵。

random_state

整数，随机数种子，确定之后不管运行多少次这个树不会变。

splitter

默认"best"，可以改成"random"，树就会更大。

一开始就设置random_state和splitter，防止模型过拟合。

以下参数用于剪枝，防止过拟合的关键：

max_depth

最大深度，最常用的参数，适用于高纬度样本量较少。一般可以从3开始试。

min_samples_leaf

每个叶子节点的最小样本数。

min_samples_split

一个节点想再往下分，需要包含的最少样本数。

整数，就是最小数目；浮点数，分完每个节点样本数的最小比例。

属性

feature_importances_

每个特征的重要性。

方法

xx.apply()

返回每条数据最终落在哪个叶子节点。

xx.fit()

返回建好的模型对象。

xx.predict()

返回每条数据预测的标签。

xx.score()

返回accuracy值。

例子

导入需要的库。

from sklearn import tree
from sklearn.datasets import load_wine
from sklearn.model_selection import train_test_split
import pandas as pd
import graphviz
#import matplotlib.pyplot as plt

导入数据，分好训练集、测试集

wine=load_wine()
Xtrain,Xtest,Ytrain,Ytest=train_test_split(wine.data,wine.target,test_size=0.3)

训练模型，输出accuracy

# 建模核心代码3行，前两行合并
clf=tree.DecisionTreeClassifier(criterion='entropy').fit(Xtrain,Ytrain)
score=clf.score(Xtest,Ytest)

print(score)

画决策树

feature_name=["酒精","苹果酸","灰","灰的碱性","镁","总酚","类黄酮","酚类","花青素","颜色强度","色调","稀释","脯氨酸"]
class_name=["琴酒","雪莉","贝尔摩德"]
dot_data=tree.export_graphviz(clf,feature_names=feature_name,class_names=class_name,filled=True)
# filled 不同类用不同颜色；rounded是True的话，框就变成圆的了
graph=graphviz.Source(dot_data)
graph

lxx199603

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
机器学习笔记3

信息论基础决策树的局限性：决策边界是横平竖直的，与坐标轴平行的；对个别样本点很敏感。回归树from sklearn.datasets import load_bostonfrom sklearn.model_selection import train_test_splitfrom sklearn.tree import DecisionTreeRegressorbost...
复制链接

扫一扫