机器学习 数据缺失_机器学习之信息缺失

正常的机器学习,分类器通过输入输出数据的训练,来学习到规则,然后得到输入便可以给出输出,下面来个简单的例子

输入位两个小数,输出为第一个数字大于第二个数字

f4e3363e02bef67c187b46148c67d20e.png

准备训练和评估数据

96bf9db3ef9901c144be6f2a1bf81388.png

初始化分类器

e83a9d03e45b884e0a8e10fb8dc11966.png

训练分类器

136eff0a09b603511ceee0080b28fa2b.png

评估网络

网络经过1000个数据的训练,可以说正确率已经达到了100%,任务就完成了。但是实际情况却很有很多数据的缺失,例如股票数据训练的时候可以有价格交易量,但是新闻却没办法量化,打牌的时候你知道底牌和自己的牌,但是缺失别人的牌的信息,诸如此类的情况,当然,这种情况就不可能追求100%的准确率了,那此时准确率极限是多少呢,机器学习能不能达到这个极限呢,下面就上面的例子做延申,把训练和评估数据中的第二个数字隐藏,看看最终表现如何

eaa2a55c9d58ef24aa393484f4074832.png

第二个输入置0造成信息缺失

8357b3546a9d81d9ec772c906f1beff1.png

初始化相同的分类器

163336efb62cd6b62aecee340d07bb90.png

训练分类器

59dcb8a907d04c6e83c7491f46eb5384.png

评估成功率74.6%

学过概率的应该能猜到,75%正确率就是此问题的极限,机器学习确实做到了逼近极限,上面的问题比较理想化,可以知道缺失信息对结果的影响是50%,对于具体问题其实这个影响并不能事先知道,只能通过学习到的极限成功率来反推,以后再讨论这些问题!

信息缺失并且带有作弊信息的情况

上述例子中,75%正确率就是极限了,但是如果我们把作弊信息放入数据会怎么样呢,例如我们把第一个数据的末尾数字作为作弊吗,作弊码为1,就代表结果为真,机器能找到这个作弊信息然后图片75%的极限吗?

b6087de7658006a04c0178bd45abeed8.png

修改数据加入作弊码,末尾1代表结果为True

fb0e85e755a0f8e986e2b455f84370dd.png

初始化分类器

ff0ecf82b754a7d76463075aeaebe36c.png

训练网络,很明显没有突破极限,也许作弊码太难找

我们把作弊码弄的更明显一些

5e19f174548f6c564a05ae639119aba0.png

把作弊码放在了第二位数字0.1代表True,和尚头上的虱子

70a9ed0f4d6040225fd5922ee6f899ea.png

和尚头上的虱子还是比较容易找到

只要分类器找到了作弊码,基本就能轻松突破理论极限,出现这种情况,你就要小心有作弊码被找到了,当然作弊码是否能被找到从而突破极限,是个随机的过程,越明显的作弊码越容易找到,上面那个没找到的作弊码也许多训练几次就能找到!

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值