神经网络到底是如何做出决策的?

(A,B)---m*n*2---(1,0)(0,1)

神经网络的衰变假设:被概率密度表达的粒子A和B彼此互为粒子和环境,在相互作用中被彼此微扰产生衰变,衰变产物是B化A和A化B,网络的分类准确率是两个粒子分类准确率的算术和pave=Σpr。

 

用神经网络分类两个数据集,让A代表围棋中白棋的可能走势,B代表黑棋的可能走势,

(白,黑)--m*n*2---(1,0)(0,1)

 

用两色棋的未来的演化来训练这个网络,比如让机器执黑棋,用神经网络找到针对现在白棋盘面最优的落子方法。按照神经网络衰变假设,可以将白棋的盘面理解成环境,把黑棋的盘面看作是在白棋环境中的粒子。

 

可以理解要找的黑棋的最优落子方法是在白棋环境中半衰期最长的黑棋粒子。因为半衰期越长表明粒子越稳定,越不易受环境的影响。也就表明黑棋对整个盘面的掌控更强,走势更为主动。表明黑棋可以在白棋的环境中活的更久。对棋牌游戏来说活得比对方更久和取得胜利这两种表述显然是一样的。

 

计算过程,(1,0)位和(0,1)位的分类准确率P10和P01是放射剩余,迭代次数N是时间,T是半衰期

如果白棋是(1,0)位那就是要找到P01最大的解,因为P01越接近1,半衰期T越大。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

黑榆

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值