see后感-原因的原因不是原因,结果的结果不是结果

See

see了好久才see完,这篇文章写的确实好。
给个地址,方便哪天想再see的时候回来see。不过也有可能哪天这篇文章因为各种原因就不存在了。
以下内容来自这篇文章,对我而言是来理解这个图。

环境可以是真实世界,电脑游戏,模拟,甚至棋盘游戏,比如围棋或象棋。就像人类一样,人工智能代理人从其行为的结果中学习,而不是从明确的教导中学习。
在深度强化学习中,智能体是由神经网络表示的。神经网络直接与环境相互作用。它观察环境的当前状态,并根据当前状态和过去的经验决定采取何种行动(例如向左、向右移动等)。根据采取的行动,AI智能体收到一个奖励(Reward)。奖励的数量决定了在解决给定问题时采取的行动的质量(例如学习如何走路)。智能体的目标是学习在任何特定的情况下采取行动,使累积的奖励随时间最大化。

在这里插入图片描述

  • 阿尔法狗每下的一盘棋,都是一次自我进化的学习过程,工作即学习,学习即工作;
  • 阿尔法狗的唯一目标是终局胜负,因此而有强烈的使命感,钢铁般的意志,和石佛般的平常心(尽管它不需要这些形容词);
  • 把每一手棋,都当作一个独立决策点,将当前的整个局面视为一个初始状态,根据当前局面,发现(模仿人的直觉)获胜概率较高的几手棋,并估算每一手棋的终局胜率;
  • 从中选择最优决策;
  • 等对方落子后,再次进入“初始状态”,根据更新的信息,重复以上动作,直至终局。

思考时“望见山那边”,行动时则信奉“车到山前必有路”。

一个有趣的现实是:

就像每天都是你余生中最年轻的一天,面向未来的决策不管多么艰难,在决策选项中,你总能发现相对最优的那一个。

这句话中的你总能发现相对最优的那一个,是个哲学问题,就回到了考虑长远还是活在当下的问题。不过乔布斯曾经提到过的一句话,追求内心。无论考虑长远还是活在当下,可能最终问一问内心,这个答案会让自己更愿意去接受这个决策,也就会更专注的投入。在中国,就是那句最大的敌人,始终是自己,只有坚信自己的决定,并且最终成功了,那么才算是真正的自己。犯错没关系,不成功也没关系,有关系的是能否根据自己的判断决策走下去,注意力是集中在idea上而不是其他,因为按照自己的道路走过了,才能最终得到反馈,直到通往成功的方向。

See后感

干活吧,想啥呢

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值