机器学习进阶 day4

最新推荐文章于 2024-05-12 21:56:28 发布

阿泽学习日记

最新推荐文章于 2024-05-12 21:56:28 发布

阅读量1.5k

点赞数

文章标签：机器学习人工智能数据挖掘

本文链接：https://blog.csdn.net/nendie1/article/details/123400508

版权

AUC以及ROC曲线

TPR和FPR的概念
TPR真正率
分类正确的数量占总的正确的数量
FPR假正率
分类错误的数量占总的错误的数量
在这里插入图片描述

图例解释
equal error rate
该点是FPR=TPR相等的点
random chace
指的是随机分类时，TPR和FPR的线
图中FPR为0.1时，TPR为0.8，有种类似于以0.1的FPR换取了TPR的正确率

AUC
ROC曲线所覆盖的面积
来评估模型的分类能力

精度Precision
也就是TPR
预测正例的总数量中正确的数量
召回率Recal
真正为正例的样本有多少被预测出来

自回归

类概念：用前n天的数据预测当前的值
也就是之前的值与今天的值是相关的

L1 L2正则算法的比较

Ridge(L2)比Lasso(L1)效果好 L2正则
Lasso(L1)具有特征选择的能力
Elastic Net 是Ridge和Lasso的结合算法
当模型复杂时，模型偏Lasso

代码的实践以及技巧

Lasso
model = lasso()
参数alpha
alpha_can = np.logspace(-3,2,10) 0.01-100
lasso_model = GridsearchCV(model,param_grid={‘alpha’:alpha_cal},cv = 5)
lasso.model.fit(x_train,y_train)
lasso_model.score(就是R^2)

对数据进行从小到大的排序
order = y_test.argsort(axis=0)
argsort带号排序
y_test = y_test,values[order]按照order顺序重新选数字
x_test = x_test.values[order,:]

决策树

特征选择的标准：1.ID3 2.ID4.5 3.CART

信息熵
H§ = -∑ Pi log Pi
ID3
信息增益——互信息
g（X,Y） = I（X,Y） = H（X） - H（X|Y）
ID4.5
信息增益率
g（X,Y）/H（Y）
信息增益/原来的熵
CART
基尼系数
在这里插入图片描述
决策树的评价
纯节点Hp = 0 minH
均节点 Hu = lnk maxH

均节点也就是将k个节点分为k类

随机森林(bagging)

bagging集成方法
通过boostrap的方法，对样本进行随机有放回抽样，将未参与模型训练的数据称为oob(out of bag)
oob可用于取代测试集进行误差估计
bagging可以降低各个决策树的噪声

样本不均匀的处理方法
1.降采样(某类样本过多)
从某类较多的样本中抽取5%-10%的采样率不断地有放回的进行采样

2.重采样(某类样本过少)
对小类样本重复采样

3.对小类样本进行数据合成
随机插值形成新的样本

尽量不采用重采样，原因如下：
1.样本带有噪声，重复会增加噪声。
2.重复采样使得训练变得麻烦

随机森林的其他功能
使用随机森林计算特征的重要度
rf.feature_importance_

利用oob数据取代测试集
rf.oob_score_

阿泽学习日记

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
机器学习进阶 day4

AUC以及ROC曲线TPR和FPR的概念TPR真正率分类正确的数量占总的正确的数量FPR假正率分类错误的数量占总的错误的数量图例解释equal error rate该点是FPR=TPR相等的点random chace指的是随机分类时，TPR和FPR的线图中FPR为0.1时，TPR为0.8，有种类似于以0.1的FPR换取了TPR的正确率AUCROC曲线所覆盖的面积来评估模型的分类能力精度Precision也就是TPR预测正例的总数量中正确的数量召回率Recal真正为正
复制链接

扫一扫