心学,机器学习,转发微博

年节(九)随笔-机器学习和阳明心学

年节假期,疫情正盛。趁着居家休闲的机会,重新温习了一点点机器学习(machine learning)和阳明心学。试着做个简单总结比较。认识极为肤浅,欢迎行家指正不对之处。

机器学习内容和种类很多。比如可以分为监督学习(supervised learning),非监督学习(unsupervised learning)和强化学习(reinforcement learning)。再比如说按模型(model)分成geometric,probabilistic和logical。这里想说的是强化学习(reinforcement learning)。因为这个学习跟人类的认知行为过程更契合,跟阳明心学比较起来更有意思一些。

强化学习包括学习的主体(agent),策略(policy),和任务(task)。策略就是场景(state)以及在特定场景下可选择的行动(action)。每一个场景都对应着一个价值(value)。而学习的过程就是使每一个场景的价值更为符合任务(task)的宏观价值取向,从而使每一个场景下决定采取的行动,更有利于实现宏观(最终)的任务目标。

无善无恶心之体。这是阳明心学四句教的第一句。本体之心,无善无恶。没有被经验,知识,偏见和执念所污染。如同一张白纸,清明而包容。而强化学习的起点则是每一个场景的价值都是最初的没有任何经验的初始值。这些初始值,是没有经过任何已有知识,经验和学习算法污染的。

有善有恶意之动。一旦任务确定,有了目标,每一个场景和行动,就有了价值取向,有了优与次。但是此时具体价值还是未知的。如何能够揭开遮挡,找到每一个场景的真正价值,用以做决策呢?只能是学习和致良知了。

知善知恶是良知。这应该是经过不断学习之后,每一个场景和行动的价值都大致符合了宏观(任务)的目标。主体就有了更好能达到目标的知识,即是良知。阳明心学认为,每个人的心中都有良知,只是很多时候被欲念,偏见,情绪所掩盖,或者已有的理论和条条框框所迷惑。而学习的过程,就是去除干扰,揭示真知的过程。落到机器学习,就是通过有效的学习算法,比如时间差分法(temporal- difference learning),来一步步找出(近似)最优的价值。

为善去恶是格物,致良知。这应该就是对应强化学习里面学习的过程。通过连续的采取行动,根据行动的结果与宏观目标的对比,不断调整每一个场景和行动(action)的价值(value),使局部价值更为符合长远宏观的价值。而根据这个价值(value)所选择采取的行动,就更有可能帮助人们达成宏观的目标(优化整体价值)。

事上练,利用(exploitation)和探索(exploration)和时间差分学习(temporal- difference learning)。阳明心学特别强调事上练。即除了学习和日常修行功课以外,在工作处理事情中学习调整。通过解决问题和做事,获得经验教训,及时学习和调整,获得良知。这也是强化学习所强调的。不同于监督学习是从预先标注(label)好的知识中训练然后致用,强化学习则是通过具体采取行动,并根据结果和目标的对比,来学习调整每个状态和行动的价值。阳明心学主张在解决新问题过程中,通过对新思路的尝试,扩展知识和经验,致良知。强化学习也强调知识和探索的平衡,已避免受限于已有的知识。在利用(exploit)已学到的知识(价值,value)的基础上,时不时大胆尝试新的看似不优化的行动,可以增加学到整体更优解的概率。

强化学习的核心学习算法,时间差分学习(temporal-difference learning),结合了动态规划(dynamic programing)和蒙特卡洛(monte- Carlo)的优点,既不需要明确的模型,也可以实时连续地进行学习和修正。阳明心学强调事上练,养心,不拘泥于已有的经验,随时根据具体形势,学习和调整。

知行合一。在这一点上,似乎机器比人类本身有着更大的优势。机器总能够忠实地执行已知的策略,不会是道理说一套,行为却做另外一套。而人的思维却存在着含糊的可能。以为知道了,事到临头,却又糊涂了。也就是说,了解了,说出来,写出来,做出来,是四件大不相同的境况。知识用机器语言表达出来,就必须明确而直接的表达出场景,行动和价值,没有含糊。而且一旦学到新的知识,也就立刻致用。阳明心学强调知行合一,或许也正是告诉人们,需要经过努力来克服人类思维和行为的模糊,进而帮助人们克服这种模糊带来的知行不一的问题。

其实说到机器学习和阳明心学的这些相通之处,也不应该感到奇怪。不管是机器学习,还是阳明心学,都应该是人类探索自己认知行为的研究的阶段性成果。但是从另外一个角度看,阳明心学里又包含着人类特有而机器不可能有的智慧。比如充满温度和灵性的仁爱之心,鼓励交流,思辨和思想碰撞的包容之心,以及面对各种逆境顺境时的胸襟和机变。这些都是机器学习人工智能现在和可见的将来所达不到,不可能拥有的。

戏说一通,贻笑大方。再次欢迎指正。并祝新年快乐。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值