机器学习ML策略

机器学习ML策略
1、为什么是ML策略
例如:识别cat分类器的识别率是90%,怎么进一步提高识别率呢?
想法:
(1)收集更多数据
(2)收集更多的多样性训练样本
(3)使用梯度下降训练更长时间
(4)尝试Adam代替梯度下降
(5)尝试更大的网络
(6)尝试更小的网络
(7)尝试dropout
(8)尝试L2正则化
(9)修改网络架构(激励函数,隐含层单元数目)

2、正交化
正交化(正交性)是一种系统设计属性,它可以确保修改算法的一个指令或者组成部分将不会对系统的其他组成部分产生或者传播副作用。使得核查算法变得容易,减少测试和开发算法的时间。

一个好的机器学习算法按算法流程需要满足(正交化):
(1)在训练集中表现好(接近人类)。如果不好,可换大型网络或者更换优化算法
(2)在验证集中表现好。如果不好,可尝试正则化或者使用大一点规模的训练集
(3)在测试集中表现好。如果不好,可尝试大一点的验证集
(4)在真实世界中表现好。如果不好,测试集不正确或者代价函数有问题

3、单一数字评估指标
混淆矩阵:
True Positive(TP):正类预测为正类
True Negtive(TN):负类预测为负类
False Positive(FP):负类预测为正类(误报)
False Negative(FN):正类预测为负类(漏报)

Positive    Negative

True TP TN
False FP FN

精确率(precision):针对预测结果而言的,它表示的是预测为正的样本中有多少是对的
P = TP/(TP+FP)
准确率(accuracy):ACC = (TP+TN)/(TP+TN+FP+FN)
召回率(recall):针对我们原来的样本而言的,它表示的是样本中的正例有多少被预测正确的
R = TP/(TP+FN)
F1值:2/F1 = 1/P +1/R —> F1 = 2TP/(2TP+FP+FN)

在信息检索领域,精确率和召回率又被称为查准率和查全率,
查准率=检索出的相关信息量 / 检索出的信息总量
查全率=检索出的相关信息量 / 系统中的相关信息总量

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值