scikit-learn笔记----对数据分类

最新推荐文章于 2024-08-18 11:53:15 发布

梵天的读书笔记

最新推荐文章于 2024-08-18 11:53:15 发布

阅读量882

点赞数

分类专栏：机器学习算法文章标签：分类 sklearn

本文链接：https://blog.csdn.net/is_badboy/article/details/79641873

版权

这篇博客深入探讨了使用scikit-learn库进行数据分类的各种方法，包括决策树、随机森林、支持向量机（SVM）、多类分类、随机梯度下降（SGD）以及朴素贝叶斯算法。通过对这些模型的实践应用，读者可以更好地理解和掌握数据分类技术。

摘要由CSDN通过智能技术生成

1. 决策树实现基本的分类

from sklearn import datasets
X, y = datasets.make_classification(n_samples=1000, n_features=3, n_redundant=0)
from sklearn.tree import DecisionTreeClassifier
dt = DecisionTreeClassifier()
dt.fit(X, y)
predictions = dt.predict(X)
(y - predictions).mean()
>>>0.0

max_depth 这是个重要的参数，决定了允许多少分支。
如果我们仅仅使用基本的决策树实现，可能拟合得不是很好。所以我们需要调参，以便获得更好的拟合。这非常简单，并且不用花费什么精力。

决策树经常会过拟合，所以，我们需要思考，如何避免过拟合，这是为了避免复杂性。修改max_depth，将熵用作分割标准criterion='entropy'，设置min_samples_leaf=10等等

2. 随机森林--使用许多决策树

随机森林通过构造大量浅层树，之后让每颗树为分类投票，再选取投票结果。随机森林对于过拟合非常健壮，并且在大量场景中表现良好，所以使用它。

from sklearn import datasets
X, y = datasets.make_classification(1000)
from sklearn.ensemble impo

最低0.47元/天解锁文章

梵天的读书笔记

关注

0
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录