机器学习进阶 day4

AUC以及ROC曲线

TPR和FPR的概念
TPR真正率
分类正确的数量占总的正确的数量
FPR假正率
分类错误的数量占总的错误的数量
在这里插入图片描述
在这里插入图片描述
图例解释
equal error rate
该点是FPR=TPR相等的点
random chace
指的是随机分类时,TPR和FPR的线
图中FPR为0.1时,TPR为0.8,有种类似于以0.1的FPR换取了TPR的正确率

AUC
ROC曲线所覆盖的面积
来评估模型的分类能力

精度Precision
也就是TPR
预测正例的总数量中正确的数量
召回率Recal
真正为正例的样本有多少被预测出来

自回归

类概念:用前n天的数据预测当前的值
也就是之前的值与今天的值是相关的

L1 L2正则算法的比较

Ridge(L2)比Lasso(L1)效果好 L2正则
Lasso(L1)具有特征选择的能力
Elastic Net 是Ridge和Lasso的结合算法
当模型复杂时,模型偏Lasso

代码的实践以及技巧

Lasso
model = lasso()
参数alpha
alpha_can = np.logspace(-3,2,10) 0.01-100
lasso_model = GridsearchCV(model,param_grid={‘alpha’:alpha_cal},cv = 5)
lasso.model.fit(x_train,y_train)
lasso_model.score(就是R^2)

对数据进行从小到大的排序
order = y_test.argsort(axis=0)
argsort带号排序
y_test = y_test,values[order]按照order顺序重新选数字
x_test = x_test.values[order,:]

决策树

特征选择的标准:1.ID3 2.ID4.5 3.CART

信息熵
H§ = -∑ Pi log Pi
ID3
信息增益——互信息
g(X,Y) = I(X,Y) = H(X) - H(X|Y)
ID4.5
信息增益率
g(X,Y)/H(Y)
信息增益/原来的熵
CART
基尼系数
在这里插入图片描述
决策树的评价
纯节点Hp = 0 minH
均节点 Hu = lnk maxH

均节点也就是将k个节点分为k类

随机森林(bagging)

bagging集成方法
通过boostrap的方法,对样本进行随机有放回抽样,将未参与模型训练的数据称为oob(out of bag)
oob可用于取代测试集进行误差估计
bagging可以降低各个决策树的噪声

样本不均匀的处理方法
1.降采样(某类样本过多)
从某类较多的样本中抽取5%-10%的采样率不断地有放回的进行采样

2.重采样(某类样本过少)
对小类样本重复采样

3.对小类样本进行数据合成
随机插值形成新的样本

尽量不采用重采样,原因如下:
1.样本带有噪声,重复会增加噪声。
2.重复采样使得训练变得麻烦

随机森林的其他功能
使用随机森林计算特征的重要度
rf.feature_importance_

利用oob数据取代测试集
rf.oob_score_

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值