终极算法——第八章：无师自通

_Melix

于 2019-03-05 09:58:03 发布

阅读量224

点赞数

分类专栏：终极算法

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_36165148/article/details/86633555

版权

终极算法专栏收录该内容

10 篇文章 1 订阅

订阅专栏

本文探讨了人类学习的本质，特别是婴儿如何在无人监督的情况下自我学习。文章提到了聚类作为获取知识的初步步骤，以及大数据和机器学习如何避免粗糙思考。主要成分分析（PCA）和等距映射（Isomap）作为降维算法在理解和简化数据中的作用被强调。强化学习的概念被介绍，作为一种通过互动和奖励来学习的方法，类似于人类通过试错进行学习的过程。最后，文章指出，理解实体间的关联是学习的关键，而A/B测试揭示了大数据在因果关系发现上的局限性。

摘要由CSDN通过智能技术生成

本文为阅读总结个人认为书里概念性的、对本人有帮助的内容，仅供参考。

如果我们能重新回忆婴儿和蹒跚学步时期的自己，然后从新生儿的角度看待这个世界，那么许多关于学习的疑问，甚至关于存在本身，都会突然变得清晰明朗。

虽然孩子理所当然从父母那里获得了许多帮助，但很多时候他们在没人监督的情况下进行学习，这才是最不可思议的地方。

对事物进行聚类，这是人类的天性，也是获取知识的第一步。

大数据和机器学习的全部要点在于避免粗糙思考。

有一个更大的问题，那就是K均值算法只有在集群易于区分的情况下才能起作用：在超空间中，每个集群可看作一个球团，每个团距离彼此都很远，而它们都有相似的体积，并包含想近数量的物体。

无论何时，当我们想掌握某个统计模型，但又缺乏一些关键信息时(如例子的类别)，就可以利用EM。这使它在所有机器学习中成为最受欢迎的算法。

机器学习算法称该过程为维数约减，因为该过程将大量的可见维度(像素)简化称几个隐形维度(表情、面部特征)。维数约减对于应对大数据来说很关键。

寻找主要成分的整个过程，可以利用线性代数一次性完成。

主要成分分析(PCA)，正如人们对该过程的了解，是科学家的工具箱中关键的工具之一。PCA属于线性算法。

PCA完全没有解释数据的形状，而是奖其模糊化了。

对于非线性降维算法来说，最受欢迎的算法——等距映射算法，就可以实现这一点。

等距映射算法有惊人的能力，可以对准复杂数据中最重要的维度。

时间，换句话说，就是记忆的主要成分。

聚类和维度简化虽然使我们更加靠近人类学习，但仍丢失了一些很重要的东西——互动。

在任何情况下，步进监督都不应该被采用(用于互动)。家长不糊教自己的孩子爬、走或者跑，他们都是自己摸索。目前为止，所有的学习算法都不能做到这一点。

人类确实有稳定的向导：情感。我们追求快乐，躲避痛苦。

有一个机器学习的子域致力于这样的算法：进行主动探索，偶然得到奖励，然后弄清楚将来怎样才能再得到奖励。这个过程称为“强化学习”。

强化学习的一个重要先驱是跳棋游戏程序，这是IBM的研究员阿瑟·塞缪尔于20世纪50年代编写的。棋盘游戏是强化学习问题的典范：你得走好多步棋，却得不到任何反馈，奖励或惩罚都是在最后一刻揭晓，其形式也就是嬴和输。

强化学习的首要思想是：并不是所有的状态都有奖励，但每种状态都会有价值。

强化学习通过估算每种状态的价值来做到这一点，从该状态开始你所期望得到的全部奖励，然后选择能将奖励最大化的行为。

强化学习面对利用——探索困境的解决方法是：时而选择最佳行动，时而随机选择。

实际上，强化学习就是一种加速进化过程——尝试、丢弃，然后在单个生命的一生而不是几代中改进行动——有了这个标准，它的效率就会很高。

对于强化学习的研究自20世纪80年代早期才正式开始，马萨诸塞大学的里奇·萨顿和安迪·巴尔托参与了研究工作。他们认为学习取决于与环境的互动，这一点很关键，但监督算法并没有发现这一点。

1989年，当时剑桥大学的克里斯·沃特金斯在儿童学习实验发的的推动下，实现了强化学习的现代形式，即在未知环境中进行最优控制。

在监督式学习中，某个状态的目标价值总是一样的；但在强化学习中，它会不断变化。

讽刺的是，人在最痛苦时学到的东西往往最多。

通过练习你会做的更好，但不会以恒定覅人速度进步：一开始你进步很快，接下来就没那么快了，最后你变得很慢。

组块是一个来自感知与记忆心理学的概念。

人类解决问题的方式是将问题分解为小问题，再将小问题分解为更小的问题，然后系统地减少初始状态与目标状态之间的差异。

于是纽厄尔、罗森布鲁姆、莱尔德作出这样的假设——组块是学习所需的“唯一”机制，换句话说，就是终极算法。

尝试将强化学习、监督式学习，以及别的一切简化称组块，基本上会制造更多的问题，而不会解决问题。

A/B测试证明常听到的批评言论的错误：大数据制对寻找相关关系有好处，对寻找因果关系则没用。

了解一个实体的最佳方法——无论它是人、动物、网页还是分子——就是了解它如何与其他实体进行连接。

关联学习算法能达到的最佳效果就是让懒散的老师变得勤奋。

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。