让AI网络自己学会下五子棋

5 篇文章 0 订阅
3 篇文章 0 订阅

最近学AI,想做点什么,后面想想能不能做一个相对简单的AI,让AI自己学会下五子棋呢!我不想写任何逻辑,我只告诉AI,你这样输了哦。也就是反馈,奖惩的方式,也叫深度强化学习吧(DQN)。我做得很简单,2个一样的网络,一个判断结果,让2个网络自己对抗,策略是部分按训练结果来下,部分按随机概率来下(用来探索最佳答案)。训练过程发现损失越来越少,下棋周期越来越长,棋子会相对离散。这里输出“0”表示先手,“*”表示后手。

    因为朋友的AI项目开始了,我后面没有跟进这个东西了。有兴趣的朋友完善下,一起交流!


import tensorflow as tf
import numpy as np
import os

os.environ['TF_CPP_MIN_LOG_LEVEL'] = '2'
k = 0;
M = 10
N = 10
chessState = {}


def getTrainData():
    tmp = []
    for i in range( M ):
        one = []
        for j in range( N ):
            one.append( chessState[i, j] )
        tmp.append( one )
    return np.reshape( tmp, [-1, 10] )


def getOneEpData():
    tmp = []
    for i in range( len( OneRePlay ) ):
        tmp.append()


def initState():
    for i in range( M ):
        for j in range( N ):
            chessState[i, j] = -1
    # chessState[5,5]=1

def outPutChess():
    print("{}".format(getTrainData()).replace("-1","  ").replace("1","*"))

def outputState():
    for i in range( M ):
        print( "" )
        print( "{:2d}  {:2d}  {:2d}  {:2d}  {:2d}  {:2d}  {:2d}  {:2d}  {:2d}  {:2d}".format( chessState[i, 0],
                                                                                              chessState[i, 1],
                                                                                              chessState[i, 2],
                                                                                              chessState[i, 3],
                                                                                              chessState[i, 4],
                                                                                              chessState[i, 5],
                                                                                              chessState[i, 6],
                                                                                              chessState[i, 7],
                                                                                              chessState[i, 8],
                                                                                              chessState[i, 9] ).replace("-1","-").replace("1","*") )


def PlayOneStep(L=0., who=-1, sess=tf.Session):
    i1, j1 = 0, 0
    p1, p2 = 0.00, 0.000

    for i in range( M ):  # 所有点测试都尝试
        for j in range( N ):
            if (chessState[i, j] == -1):
                chessState[i, j] = who
                p1 = sess.run( L, feed_dict={x: np.reshape( getTrainData(), [-1, 100] )} )
                if (p1[0][0] > p2):
                    i1, j1 = i, j
                    p2 = p1[0][0]
                chessState[i, j] = -1
    if (True):#np.random.uniform() < 1-p2):  # 随机尝试不同的地方
        return i1, j1
    else:
        while True:
            i1 = np.random.randint( 0, 9 )
            j1 = np.random.randint( 0, 9 )
            if (chessState[i1, j1] == -1):
                break
    return i1, j1

def Normalize(data):
    m = np.mean(data)
    mx = max(data)
    mn = min(data)
    return [(float(i) - m) / (mx - mn) for i in data]

def whoWin(who=1):
    i, j = 0, 0
    h, v, p, l = 0, 0, 0, 0
    for i in range( M ):
        for j in range( N ):
            if (chessState[i, j] == who):
                h, v, p, l = 1, 1, 1, 1
                for m in range( j + 1, N ):  # h方向-
                    if (chessState[i, m] == who):
                        h += 1
                        if (h >= 5):
                            return True, "—"
                    else:
                        h = 0

                for m in range( i + 1, M ):  # V方向|
                    if (chessState[m, j] == who):
                        v += 1
                        if (v >= 5):
                            return True, "|"
                    else:
                        v = 0

                for m in range( 1, M - j ):  # L方向\
                    if (i + m >= M):
                        break
                    if (j + m >= M):
                        break
                    if (chessState[i + m, j + m] == who):
                        p += 1
                        if (p >= 5):
                            return True, "\\"
                    else:
                        p = 0

                for m in range( 1, M - i ):  # P方向/(1,10)
                    if (i + m >= M):
                        break
                    if (j - m < 0):
                        break
                    if (chessState[i + m, j - m] == who):
                        l += 1
                        if (l >= 5):
                            return True, "/"
                    else:
                        l = 0

    return False, ""


initState()
learning_rate = 0.0001

"""
chessState[1,5]=1
chessState[1,6]=1
chessState[1,7]=1
chessState[1,8]=1
chessState[1,9]=1
print("1111")
print(whoWin(1))
print(getTrainData())
exit()

chessState[1,9]=-1
chessState[2,8]=-1
chessState[3,7]=-1
chessState[4,6]=-1
chessState[5,5]=-1

print(whoWin(-1))
exit(0)
"""
#print( getTrainData() )
outPutChess();
# 先手网络
x = tf.placeholder( dtype=tf.float32, shape=[None, 100], name="X_In" )
y = tf.placeholder( dtype=tf.float32, shape=[None, 1], name="Y_In" )

w1 = tf.get_variable( "W1", shape=[100, 40], initializer=tf.contrib.layers.xavier_initializer() )
b1 = tf.get_variable( "b1", shape=[40], initializer=tf.contrib.layers.xavier_initializer() )

w2 = tf.get_variable( "W2", shape=[40, 1], initializer=tf.contrib.layers.xavier_initializer() )
# np.random.uniform(0,1,size=[50,1]))
b2 = tf.get_variable( "b2", shape=[1], initializer=tf.contrib.layers.xavier_initializer() )

L1 = tf.matmul( x, w1 ) + b1
L2_R = tf.matmul( L1, w2 ) + b2
L2 = tf.nn.sigmoid( L2_R )

# loglik = tf.log(y * (y - L2) + (1 - y) * (y + L2))
# los = -tf.reduce_mean(loglik)

#los = -tf.reduce_mean( y * tf.log( L2_R ) )
los=tf.reduce_mean(tf.square(L2_R-y))
#los = tf.nn.softmax_cross_entropy_with_logits_v2(logits=L2,labels=y)
# los=tf.reduce_mean(tf.nn.softmax_cross_entropy_with_logits(logits=L2, labels=y))
train = tf.train.AdamOptimizer( learning_rate ).minimize( los )
# train=tf.train.GradientDescentOptimizer(0.0001).minimize(los)

# 后手网络
w1_h = tf.get_variable( "w1_h", shape=[100, 40], initializer=tf.contrib.layers.xavier_initializer() )
b1_h = tf.get_variable( "b1_h", shape=[40], initializer=tf.contrib.layers.xavier_initializer() )

w2_h = tf.get_variable( "w2_h", shape=[40, 1], initializer=tf.contrib.layers.xavier_initializer() )
b2_h = tf.get_variable( "b2_h", shape=[1], initializer=tf.contrib.layers.xavier_initializer() )

L1_h = tf.matmul( x, w1_h ) + b1_h
L2_h_R = tf.matmul( L1, w2_h ) + b2_h
L2_h = tf.nn.sigmoid( L2_h_R )

# loglik_h = tf.log(y * (y - L2_h) + (1 - y) * (y + L2_h))
# los_h = -tf.reduce_mean(loglik_h)

#los_h = -tf.reduce_mean( y * tf.log( L2_h_R ) )
los_h=tf.reduce_mean(tf.square(L2_h_R-y))
#los_h = tf.nn.softmax_cross_entropy_with_logits_v2(logits=L2_h,labels=y)

# los_h=tf.reduce_mean(tf.nn.softmax_cross_entropy_with_logits(logits=L2_h, labels=y))
# train_h=tf.train.GradientDescentOptimizer(0.001).minimize(los_h)
train_h = tf.train.AdamOptimizer( learning_rate ).minimize( los_h )

epCount = 0
AllReplay = []
AllReward = []
AllRewardH = []

OneRePlay = []
OneReward = []
OneRewardH = []

OneRePlay.append( getTrainData() )
OneReward.append( 1 )
OneRewardH.append( 1 )
step = 0
who = 1  # 后手
with tf.Session() as sess:
    init = tf.global_variables_initializer()
    sess.run( init )
    while True:
        oneTran = getTrainData()
        if (who == 1):
            i, j = PlayOneStep( L2, who, sess )  # 位置
        else:
            i, j = PlayOneStep( L2_h, who, sess )  # 位置

        chessState[i, j] = who
        done, posWin = whoWin( who )
        step += 1
        if (done):
            print(
                "------【{:1d}】----------------{:6d}----------【{:s}】----step{:d}--------".format( who, epCount, posWin,
                                                                                                 step ).replace("-1","-") )
            step = 0
            #print( getTrainData() )
            #outputState()
            outPutChess()
            done = True
            iMax = len( OneReward )
            if (who == 1):  # 先手赢了
                OneReward[iMax - 1] = 0.96
                for i in reversed( range( iMax - 1 ) ):
                    OneReward[i] *= OneReward[i + 1] * 0.995
                OneRewardH[iMax - 1] = 0.10
                for i in reversed( range( iMax - 1 ) ):
                    OneRewardH[i] *= OneRewardH[i + 1] * 1.02
            else:  # 后手赢了
                OneRewardH[iMax - 1] = 0.96
                for i in reversed( range( iMax - 1 ) ):
                    OneRewardH[i] *= OneRewardH[i + 1] * 0.995
              
                OneReward[iMax - 1] = 0.10
                for i in reversed( range( iMax - 1 ) ):
                    OneReward[i] *= OneReward[i + 1] * 1.02

            AllReplay.append( OneRePlay )
            AllReward.append( OneReward )
            AllRewardH.append( OneRewardH )
            initState()  # 重新开始
            # print(getTrainData())

        if (len( AllReplay ) > 0):# and done):  # 更新梯度,
            x_feed = np.vstack( AllReplay )
            x_feed = np.array( x_feed )
            x_feed = np.reshape( x_feed, [-1, 100] )
            r = np.hstack( AllReward )
            r = np.array( r )
            rh = np.hstack( AllRewardH )
            rh = np.array( rh )
            _, tlos1, ww1, ww2 = sess.run( [train, los, w1, w2], feed_dict={x: x_feed, y: np.reshape( r, [-1, 1] )} )
            _, tlos2 = sess.run( [train_h, los_h], feed_dict={x: x_feed, y: np.reshape( rh, [-1, 1] )} )
            if (step % 10 == 0):
                print( "los1,los2:", tlos1, tlos2 )
            # print("w1,w2:",ww1,ww2)

            if (done):  # 一轮结束
                OneReward = []
                OneRewardH = []
                OneRePlay = []

        OneRePlay.append( getTrainData() )
        OneReward.append( 1 )
        OneRewardH.append( 1 )

        if (who == 1):
            who = 0
        elif (who == 0):
            who =1
        epCount += 1

        if (len( AllReplay ) > 50):
            AllReplay.pop()
            AllReward.pop()
            AllRewardH.pop()
        # if(epCount%10==0):#看看啥情况
        #   print(getTrainData())
        # outputState()

训练过程如下:


训练

五子棋算法探讨 --------------------------------------------------------------------------------   近来随着计算机的快速发展,各种棋类游戏被纷纷请进了电脑,使得那些喜爱下棋,又常常苦于没有对手的棋迷们能随时过足棋瘾。而且这类软件个个水平颇高,大有与人脑分庭抗礼之势。其中战胜过国际象棋世界冠军-卡斯帕罗夫的“深蓝”便是最具说服力的代表;其它像围棋的“手淡”、象棋的“将族”等也以其优秀的人工智能深受棋迷喜爱;而我们今天将向大家介绍的是五子棋的算法。   当我们与电脑对战时,您知道这些软件是怎样象人脑一样进行思考的吗?前不久我曾编写过一个五子棋的游戏,在这里就以此为例和大家一起探讨探讨。   总的来说(我们假定您熟悉五子棋的基本规则),要让电脑知道该在哪一点下子,就要根据盘面的形势,为每一可能落子的点计算其重要程度,也就是当这子落下后会形成什么棋型(如:“冲四”、“活三”等),然后通览全盘选出最重要的一点,这便是最基本的算法。当然,仅靠当前盘面进行判断是远远不够的,这样下棋很容易掉进玩家设下的陷阱,因为它没有考虑以后的变化。所以在此基础上我们加入递归调用,即:在电脑中预测出今后几步的各种走法,以便作出最佳选择,这也是我们下棋时常说的“想了几步”。如此一来您的程序便具有一定的水平了。什么?不信!过来试试吧!   总体思路弄清之后,下面进行具体讨论: 一:数据结构   先来看看数据结构,我们需要哪些变量?   首先得为整个棋盘建立一张表格用以记录棋子信息,我们使用一个15*15的二维数组 Table[15][15] (15*15是五子棋棋盘的大小),数组的每一个元素对应棋盘上的一个交叉点,用‘0’表示空位、‘1’代表己方的子、‘2’代表对方的子;这张表也是今后分析的基础。   在此之后还要为电脑和玩家双方各建立一张棋型表Computer[15][15][4]和Player[15][15][4],用来存放棋型数据,就是刚才所说的重要程度,比如用‘20’代表“冲四”的点,用‘15’代表“活三”的点,那么在计算重要性时,就可以根据20>15得出前者比后者重要,下子时电脑便会自动选择“冲四”的点。那为什么棋型表要使用三维数组呢?因为棋盘上的每一个点都可以与横、竖、左斜、右斜四个方向的棋子构成不同的棋型,所以一个点总共有4个记录;这样做的另一个好处是可以轻易判断出复合棋型,例如:如果同一点上有2个‘15’就是双三、有一个‘15’和一个‘20’就是四三。   怎么样!3个数组构成了程序的基本数据骨架,今后只要再加入一些辅助变量便可以应付自如了。应该不会太难吧?OK!有了这么多有用的数据,我们就可以深入到程序的流程中去了。 二:程序流程   我们主要讨论五子棋的核心算法,即:人工智能部分,而其他像图形显示、键盘鼠标控制等,因较为简单,所以就不作过多介绍了。   首先,请仔细阅读图1:   我们看到本程序由六个基本功能模块构成,各模块的详细分析如下:   (1)初始化:首先,建立盘面数组Table[15][15]、对战双方的棋型表Computer[15][15][4]和Player[15][15][4]并将它们清零以备使用;然后初始化显示器、键盘、鼠等输入输出设备并在屏幕上画出棋盘。   (2)主循环控制模块:控制下棋顺序,当轮到某方下子时,负责将程序转到相应的模块中去,主要担当一个调度者的角色。   (3)玩家下子:当轮到玩家下时,您通过键盘或鼠标在棋盘上落子,程序会根据该点的位置,在Table[15][15]数组的相应地方记录‘2’,以表明该子是玩家下的。   (4)盘面分析填写棋型表:本程序核心模块之一,人工智能算法的根本依据!其具体实现方法如下:您在下五子棋时,一定会先根据棋盘上的情况,找出当前最重要的一些点位,如“活三”、“冲四”等;然后再在其中选择落子点。但是,电脑不会像人一样分析问题,要让它知道哪是“活三”、哪是“冲四”,就得在棋盘上逐点计算,一步一步的教它。   先来分析己方的棋型,我们从棋盘左上角出发,向右逐行搜索,当遇到一个空白点时,以它为中心向左挨个查找,如果遇到己方的子则记录然后继续,如果遇到对方的子、空白点或边界就停止查找。左边完成后再向右进行同样的操作;最后把左右两边的记录合并起来,得到的数据就是该点横向上的棋型,然后把棋型的编号填入到Computer[x][y][n]中就行了(x、y代表坐标,n=0、1、2、3分别代表横、竖、左斜、右斜四个方向)。而其他三个方向的棋型也可用同样的方法得到,当搜索完整张棋盘后,己方棋型表也就填写完毕了。然后再用同样的方法填写对方棋型表。   注意:所有棋型的编号都要事先定义好,越重要的号数越大!   OK! 怎么样?有点累了吧?不过千万别泄气!因为好戏还在后头。   Let's go!   (5)电脑下子:有了上面填写的两张棋型表,现在要作的就是让电脑知道在哪一点下子了。其中最简单的计算方法,就是遍历棋型表Computer[15][15][4]和Player[15][15][4]找出其中数值最大的一点,在该点下子即可。但这种算法的弱点非常明显,只顾眼前利益,不能顾全大局,这就和许多五子棋初学者一样犯了“目光短浅”的毛病。   要解决这个问题,我们引入‘今后几步预测法’,具体方法是这样的: 首先, 让电脑分析一个可能的点,如果在这儿下子将会形成对手不得不防守的棋型(例如:‘冲四’、‘活三’);那么下一步对手就会照您的思路下子来防守您,如此一来便完成了第一步的预测。这时再调用模块4对预测后的棋进行盘面分析,如果出现了‘四三’、‘双三’或‘双四’等制胜点,那么己方就可以获胜了(当然对黑棋而言‘双三’、‘双四’是禁手,另当别论);否则照同样的方法向下分析,就可预测出第二步、第三步……   等一等,要是盘面上没有对手必须防的棋型,哪该怎么办呢?进攻不成的话就得考虑防守了,将自己和对手调换一下位置,然后用上面的方法来预测对手的棋,这样既可以防住对手巧妙的攻击,又能侍机发动反击,何乐而不为呢!   但是必须告诉大家的是:预测法的运算量相当之大,据我的经验,用Pentium-100预测3步的走法平均需要15秒以上时间,所以建议预测量在5步以内。可别小瞧了这5步,有时它甚至会走出让您拍手叫绝的妙着呢!   (6)胜负判断:务须多言,某方形成五子连即获胜;若黑棋走出‘双三’、‘双四’或长连即以禁手判负。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值