qlearning ＃字棋

最新推荐文章于 2024-07-30 01:11:29 发布

楼主123

最新推荐文章于 2024-07-30 01:11:29 发布

阅读量274

点赞数

文章标签：机器学习 mdp 强化学习

本文链接：https://blog.csdn.net/weixin_42265507/article/details/113572676

版权

看完qlearning之后有个疑惑

在qlearning中状态转移概率没有了

后来想了想，是因为，我们是不知道状态转移的概率的，所以可以通过不断的epoch的方式，得到近似的概率。
假设在状态s，采取动作a共100次，有两个转移的状态,s1’，s2’，转移到s1’ 10次，转移到s2’ 90 次，那么分别用利用他们更新了10次，90次，这实际上概率就出来了。

理解了qlearning之后开始干活
训练了10万次后，跟q_table玩了10把，都是平局的，效果还是不错。

但是这种训练方式实际是就是把经验记住，机器只知道这样做是有价值的，但是并不知道为什么有价值。把棋盘换成4 x 4 或者把＃字棋（三子棋）换成5子棋，就得重新训练了，说白了就是没有逻辑能力。

在这里插入图片描述
代码
https://github.com/louzhu123/qlearning

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

楼主123

关注关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

用Qlearning征服棋盘:从国际象棋到围棋

程序员光剑

04-30

358

用Q-learning征服棋盘:从国际象棋到围棋 1.背景介绍 1.1 人工智能在棋盘游戏中的应用人工智能在棋盘游戏领域有着悠久的历史。早在1950年,克劳德·香农就提出了"程序化游戏理论",为

深度Qlearning算法原理解析

程序员光剑

04-24

878

1. 背景介绍 1.1 强化学习概述 强化学习（Reinforcement Learning，RL）是机器学习的一个重要分支，它关注智能体如何在与环境的交互中学习，通过试错的方式来获得最大的累积奖励。不同于监督学习，强化学习没有明确的标签数据，而是通过智能体与环境的互动，从环境中获得反馈信号（奖励或惩罚

参与评论您还未登录，请先登录后发表或查看评论

三子棋小游戏

xt_tzx的博客

01-30

144

game.h #define _CRT_SECURE_NO_WARNINGS 1 #include<stdio.h> #define ROW 3 #define COL 3 #include<stdlib.h> #include<time.h> #include<string.h> //函数声明 void InitBoard(char board[ROW][COL], int row, int col); void DisplayBoard(char boa

17.2---#字棋（CC150）

weixin_34346099的博客

01-05

牛客网的在线题。思路，比较简单。就是判断一下是否有连起来的1. public static boolean checkWon(int[][] board){ boolean res = false; for(int i = 0; i < 3;i++){ if(board[i][0] == 1 &&...

C语言 #字棋小游戏简单入手

2301_76387594的博客

05-16

511

#字棋游戏对C语言函数循环语句等知识的应用，简单且有趣，快去学吧QWQ！！！

三字棋小游戏

你看看这个C还有++

04-03

340

#define _CRT_SECURE_NO_WARNINGS #include<stdio.h> #include<stdlib.h> #define MAX_ROW 3 #define MAX_COL 3 char chess_board[MAX_ROW][MAX_COL]; //定义一个全局的字符数组 //初始化棋盘 int Init(){ f...

井字棋讲解

剑魄未改的博客

05-15

1981

井字棋讲解井字棋最重要的部分便是AI的训练部分，现在我确实还一知半解，如何决策步骤的保留进行探索，我还处于一脸懵逼状态。以下是实现代码： 1.库函数等准备 from __future__ import print_function #把下一个版本应用到当前版本 import numpy as np #数据处理函数 import pickle #数据储存模块 BOARD_R...

关于实现以井字棋为基础的Q-learning

viggio的博客

02-11

671

Q-learning我就不细说了，这是莫烦大神在他自己的官网上的教程不光有Q-learning Q-learning简而言之就是通过建立一种S，A之间的Q表，通过设定奖励(reward)机制不断训练，最终训练出一个能够自己向着设定的奖励(reward)以相对来说较为高效的方式行动，最终有效的得到奖励井字棋的规则也不细说了三字连珠即为胜利，下满整个棋盘双方都没有三字连珠即为平局用的是python，人工智能这方面用python太方便了（库真的多的一批，直接就用） import random import

oneDQ-learning.ipynb.tar.gz_Q learning_q learning 离散_q学习_强化学习_强化

07-14

"Q learning" 和 "q learning 离散" 指的是在离散状态和动作空间中的Q学习算法，这是强化学习领域的一个核心概念。"强化_q学习_强化学习"进一步确认了主题是关于强化学习，特别是Q学习。 **描述解读：** 描述中提到...

深度 Qlearning：深度Qlearning VS DQN

最新发布

程序员光剑

07-30

318

深度 Q-learning：深度Q-learning VS DQN 作者：禅与计算机程序设计艺术 / Zen and the Art of Computer Programming 关键词：深度学习，强化学习，Q-learning，DQN，深度

c语言，＃子棋

qq_61749962的博客

11-11

2339

＃子棋的规则非常简单，就是在3*3的9个格子内双方交替落子，谁先连成三个谁就赢，无论是斜着的还是横竖。今天就用C语言写一个与电脑下的三子棋。 1.游戏的开始先创建main函数 int main() { test() return 0; } 然后创建在main函数中的test函数提示：文章写完后，目录可以自动生成，如何生成可参考右边的帮助文档文章目录前言一、pandas是什么？二、使用步骤 1.引入库 2.读入数据总结前言提示：这里可以

初学 Qt 之从零开始的中国象棋小游戏（一）

df12138的博客

11-23

3058

最近对 Qt 这个跨平台 C++ 图形应用程序框架很感兴趣，闲暇时间多学了一下，收获很多，也踩了不少坑，在这里记录一下，分享心得。 Qt 的安装安装 Qt 并不麻烦，就是网速有点慢。推荐使用国内镜像代理下载。首先进入 Qt 官网，在 Try Qt 处点击 Download Qt，填完基本信息后，点击提交就可以下载 Qt 下载器了。当然，你也可以直接去国内镜像站上下载 Qt 下载器。打开 Qt 下载器，注册 Qt 账户，并登录，同意协议。若要使用国内镜像代理，点击左下角的配置图标。然后从百度上选择

python基础游戏之井字棋(讲解)

qq_53891711的博客

11-20

5896

python基础入门游戏之“#”字棋(讲解) 上期的内容解析在这啦，欢迎收藏！ #要用的函数，可以在主程序用到时再看 def panduan1(a,b):#判断是否获胜，返回1则证明此颜色的棋获胜 x=0 if x==0: for i in range(3):#检索二维数组的第i行 q=0;p=0 for j in range(3):#检索第i行列表的所有元素 if a[i][j]==b: q+=1#i行每有一个与所给的b棋的颜色相同，q就加一 if q==3:

如何简单理解Q-learning强化学习算法

飞机火车巴雷特的博客

08-05

1060

强化学习算法之Q-learning的个人理解

强化学习——离散任务—Qlearning数字迷宫问题

足迹

11-27

1878

任务概述：数字迷宫任务，如下表所示，4、9、11、12、23、24、25是陷阱，15是出口，出生点位置任意，学习求生之路（达到15位置） 1 2 3 4（F） 5 6 7 8 9（F） 10 11（F） 12（F） 13 14 15（O） 16 17 18 19 20 21 ...

强化学习基础理论

baidu_41871794的博客

10-16

3014

知识结构定义 强化学习（Reinforcement learning），与监督学习，无监督学习是类似的，是一种统称的学习方式。它主要利用智能体与环境进行交互，从而学习到能获得良好结果的策略。与有监督学习不同，强化学习的动作并没有明确的标注信息，只有来自环境的反馈的奖励信息，它通常具有一定的滞后性，用于反映动作的“好与坏”。参考资料： https://zh.wikipedia.org/wiki/%E5%BC%BA%E5%8C%96%E5%AD%A6%E4%B9%A0 基础理论基本概念 4

Q学习（Q-learning）入门小例子及python实现