一、sklearn及决策树的了解

最新推荐文章于 2022-06-27 07:41:57 发布

bingbangx

最新推荐文章于 2022-06-27 07:41:57 发布

阅读量173

点赞数

分类专栏： sklearn Python

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/bingbangx/article/details/107059612

版权

Python 同时被 2 个专栏收录

113 篇文章 12 订阅

订阅专栏

34 篇文章 2 订阅

订阅专栏

本章是决策树在sklearn 中的实现和调参

开发环境是Jupyter，所用的库：

Python 3.6.4

Scikit-learn

Graphviz (用于画决策树)

Numpy，Pandas，Matplotlib，Scipy

一、sklearn 入门

scikit-learn，又称为sklearn，开源的机器学习包。通过Numpy,Matplotlib等Python数据计算的库实现高效的算法应用，并且涵盖了所有的主流机器算法。

sklearn的官方网站（里面涵盖了sklearn对所有算法的实现和简单应用）：

https://scikit-learn.org/stable/index.html

了解算法的原理，可以参考以下两本书：

数据挖掘导论（机器工业出版社（英文版））、机器学习（清华大学出版社-作者周志华）

二、决策树

决策树是一种非参数的有监督学习方法，它能够从一系列有特征和标签的数据中总结出决策规则，并用树状图的结构来呈现这些规则，以解决分类和回归问题。

决策树算法本质上是一种图结构，我们只需要问一系列的问题就可以对数据进行分类了。

在决策过程中，一直对记录的特征进行提问。最初的问题所在的地方叫做根节点，在得到结论前的每一个问题都是中间节点，而得到的每一个结论，都是叶子节点。

关键概念：节点

根节点：没有进边，有出边。包含最初的，针对特征的提问。

中间节点：既有进边也有出边，进边只有一条，出边可以有很多条。针对特征的提问。

叶子节点：有进边没有出边，每个叶子节点都是一个类别标签。

子节点和父节点：在两个相邻的节点中，更接近根节点的是父节点，另一个是子节点。

决策树算法的核心是要解决两个问题：

1）如何从数据表中找出最佳节点和最佳分枝；

2）如何让决策树停止生长，防止过拟合？

（根据菜菜的机器学习整理）

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
一、sklearn及决策树的了解

本章是决策树在sklearn 中的实现和调参开发环境是Jupyter，所用的库：Python 3.6.4Scikit-learnGraphviz (安装代码pip install graphviz,用于画决策树)Numpy，Pandas，Matplotlib，Scipy一、sklearn 入门scikit-learn，又称为sklearn，开源的机器学习包。通过Numpy,Matplotlib等Python数据计算的库实现高效的算法应用，并且涵盖了所有的主流机器算法。skle
复制链接

扫一扫

专栏目录

bingbangx CSDN认证博客专家 CSDN认证企业博客

码龄6年

142: 原创

3万+: 周排名

1万+: 总排名

103万+: 访问

: 等级

4616: 积分

190: 粉丝

600: 获赞

78: 评论

3442: 收藏

私信

关注

热门文章

分类专栏

Python 113篇
excel 18篇
数据库 29篇
语言积累 2篇
matplotlib 1篇
hive 5篇
Tableau 3篇
sklearn 34篇
SqlServer 5篇
SQL 13篇
统计学 20篇
R 5篇
jdk
Docker 2篇
随机森林 4篇
决策树 6篇

最新评论

查找anaconda路径的方法
qq_46597167: 就能找到文件位置了么
TypeError: first argument must be an iterable of pandas objects, you passed an object of type “DataF
2401_84277571: # 剔除为0的数据 pd_data = pd_data.rename(columns={pd_data.columns[0]: "共同出现次数"}) name = [index_val] * len(pd_data) pd_data['共同出现词语_1'] = name pd_data = pd_data.reset_index() pd_data = pd_data.rename(columns={pd_data.columns[0]: "共同出现词语_2"}) df_common_matrix = df_common_matrix.append(pd_data, ignore_index=True) df_common_matrix = df_common_matrix[['共同出现词语_1', '共同出现词语_2', '共同出现次数']] df_common_matrix.sort_values(by=['共同出现次数'], ascending=False, inplace=True) print(df_common_matrix) df_common_matrix.to_csv('./共词矩阵变形.csv', index=False, encoding='utf-8_sig') 大佬这个里边的append 怎么换成concat啊
查找anaconda路径的方法
2301_80048705: 你可以使用anaconda prompt，cmd不行的
查找anaconda路径的方法
松大是码农: 这不对呀，conda不是内部或外部命令，也不是可运行的程序或批处理文件
工具包已经下载但是安装时出现“Jupyter command jupyter-contrib not found.”
Tengfei Wang: 手动进入目录，然后输入cmd即可

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。