机器学习
文章平均质量分 94
不知道叫什么丸
这个作者很懒,什么都没留下…
展开
-
决策树算法(实战篇——基于 sklearn 库)
决策树算法(实战篇——基于 sklearn 库)决策树算法(实战篇——基于 sklearn 库)一、sklearn 库对决策树算法实现的简介二、分类树实战三、回归树实战四、剪枝参考文献决策树算法(实战篇——基于 sklearn 库)一、sklearn 库对决策树算法实现的简介1、sklearn 中的分类树class sklearn.tree.DecisionTreeClassifier(criterion='gini', splitter='best', max_depth=None, min_sa原创 2022-04-28 16:12:18 · 1162 阅读 · 1 评论 -
决策树算法(原理篇)
决策树算法(原理篇)决策树算法一、ID3(多叉树)二、C4.5(多叉树)三、CART(二叉树)(一) CART分类树(二) CART回归树四、对连续特征的处理五、对缺失值的处理六、剪枝(一)预剪枝(二)后剪枝七、总结参考文献决策树算法一、ID3(多叉树)1、特征划分依据:信息增益 SSS 是训练样本集合,∣S∣|S|∣S∣ 是训练样本数,样本划分为 mmm 个不同的类 C1,C2,...,CmC_1,C_2,...,C_mC1,C2,...,Cm ,其样本数量分别为 ∣C1∣,∣C2∣,..原创 2022-04-24 18:21:49 · 1738 阅读 · 0 评论 -
模型性能度量
模型性能度量分类任务中的性能度量一、错误率与精度二、查准率、查全率与F1三、ROC与AUC参考文献分类任务中的性能度量一、错误率与精度1、定义:错误率是分类错误的样本树占样本总数的比例,精度则是分类正确的样本数占样本总数的比例。2、这是分类任务中最仓用的两种性能度量,既适用于二分类任务,也适用于多分类任务。二、查准率、查全率与F11、对于二分类问题,可将样例根据其真实类别与学习器预测类别的组合划分为真正例(true positive) 、假正例(false positive) 、真反倒(tr原创 2022-04-23 23:22:59 · 1362 阅读 · 0 评论 -
机器学习数据集划分方法
数据集划分方法一、留出法二、交叉验证法三、自助法四、调参与最终模型参考文献一、留出法1、将数据集 DDD 划分为两个互斥的集合:训练集 SSS 和测试集 TTT 。2、训练/测试集划分时要保持数据分布一致性,即保证训练集和测试集中类别比例一致,可采用分层采样。3、在给定训练/测试样本的比例后,仍然存在多种划分方法对初始数据集 DDD 进行分割,如把 DDD 中样本进行排序,然后把前350个正例放到训练集中,也可把后350个正例放到训练集中。一般采用若干次随机划分、重复进行试验评估后取平均值作为留出法原创 2022-04-23 14:16:31 · 5015 阅读 · 0 评论