百面机器学习 特征工程+模型评估

1.1 特征工程

特征工程:是对原始数据进行一系列工程处理,将其提炼为特征,作为输入供算法和模型使用

1.2 评价指标

精确率(Precision):预测是正样本中正确的比例

召回率(Recall):原始正样本中预测为正确的样本比例

精确率与召回率相矛盾——P-R曲线

平方根误差(RMSE):局限性是对离群值情况处理有限

平均绝对百分比误差(MAPE):把每个点的误差归一化

ROC曲线:横坐标为假阳性率,即把正样本预测对的比例(FPR);纵坐标为真阳性率,即把负样本预测错的比例(TPR)。ROC曲线由不断调节划分的截断点(阈值,0-1)得到

AUC:指的是ROC曲线下的面积大小

ROC曲线比P-R曲线更加稳定

1.3 余弦距离

余弦相似度:范围[-1,1],表示相似度。

余弦距离:1-余弦相似度

1.4 A/B测试

A/B测试:对照实验,即比较两个或多个产品版本。关键是确保除了测试的变量之外,所有其他条件都保持不变。随机分组,样本有独立性。实验组(新模型),对照组(旧模型)。

类似于小学科学实验hhh

1.5 模型评估

Holdout检验:直接随机划分。测试集评价结果与原始划分有很大关系。

交叉验证:k折交叉验证、留一验证

自助法:n次有放回的抽样,没抽到的作验证集

1.6 超参数调优

过拟合解决方法:

1、扩充数据集;2、降低模型复杂度;3、正则化;4、集成学习

欠拟合解决方法:

1、利用模型添加新特征;2、增加模型复杂度;3、减小正则化系数

  • 6
    点赞
  • 7
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值