AUC以及ROC曲线
TPR和FPR的概念
TPR真正率
分类正确的数量占总的正确的数量
FPR假正率
分类错误的数量占总的错误的数量
图例解释
equal error rate
该点是FPR=TPR相等的点
random chace
指的是随机分类时,TPR和FPR的线
图中FPR为0.1时,TPR为0.8,有种类似于以0.1的FPR换取了TPR的正确率
AUC
ROC曲线所覆盖的面积
来评估模型的分类能力
精度Precision
也就是TPR
预测正例的总数量中正确的数量
召回率Recal
真正为正例的样本有多少被预测出来
自回归
类概念:用前n天的数据预测当前的值
也就是之前的值与今天的值是相关的
L1 L2正则算法的比较
Ridge(L2)比Lasso(L1)效果好 L2正则
Lasso(L1)具有特征选择的能力
Elastic Net 是Ridge和Lasso的结合算法
当模型复杂时,模型偏Lasso
代码的实践以及技巧
Lasso
model = lasso()
参数alpha
alpha_can = np.logspace(-3,2,10) 0.01-100
lasso_model = GridsearchCV(model,param_grid={‘alpha’:alpha_cal},cv = 5)
lasso.model.fit(x_train,y_train)
lasso_model.score(就是R^2)
对数据进行从小到大的排序
order = y_test.argsort(axis=0)
argsort带号排序
y_test = y_test,values[order]按照order顺序重新选数字
x_test = x_test.values[order,:]
决策树
特征选择的标准:1.ID3 2.ID4.5 3.CART
信息熵
H§ = -∑ Pi log Pi
ID3
信息增益——互信息
g(X,Y) = I(X,Y) = H(X) - H(X|Y)
ID4.5
信息增益率
g(X,Y)/H(Y)
信息增益/原来的熵
CART
基尼系数
决策树的评价
纯节点Hp = 0 minH
均节点 Hu = lnk maxH
均节点也就是将k个节点分为k类
随机森林(bagging)
bagging集成方法
通过boostrap的方法,对样本进行随机有放回抽样,将未参与模型训练的数据称为oob(out of bag)
oob可用于取代测试集进行误差估计
bagging可以降低各个决策树的噪声
样本不均匀的处理方法
1.降采样(某类样本过多)
从某类较多的样本中抽取5%-10%的采样率不断地有放回的进行采样
2.重采样(某类样本过少)
对小类样本重复采样
3.对小类样本进行数据合成
随机插值形成新的样本
尽量不采用重采样,原因如下:
1.样本带有噪声,重复会增加噪声。
2.重复采样使得训练变得麻烦
随机森林的其他功能
使用随机森林计算特征的重要度
rf.feature_importance_
利用oob数据取代测试集
rf.oob_score_