Tensorflow函数之tf.argmax、tf.argmin理解

一、 tf.argmax知识点理解

1.1 作用

找到对应向量矩阵中的最大值问题。

1.2 表示

tf.argmax的完整表示tf.argmax(input,axis)
1、input可以是向量、或者矩阵(没有数值,单独一个数,没有比较的意义)。
2、根据axis取值的不同返回每行或者每列最大值的索引。
3、当axis=0,表示比较列,返回每列最大值的索引。当axis=1,表示比较行,返回每行最大值的索引。

1.3 实例

import tensorflow as tf
import numpy as np
 
A = [[1,3,4,5,6]] #1*5矩阵
B = [[1,3,4], [2,4,1]] #2*3矩阵
C = [1,2,5,7]#向量
with tf.compat.v1.Session() as sess:
    print(sess.run(tf.argmax(A, 0)))#在A矩阵中对比每列,结果返回向量
    print(sess.run(tf.argmax(B, 0)))#在B矩阵中对比每列
    print(sess.run(tf.argmax(A, 1)))#在A矩阵中对比每行
    print(sess.run(tf.argmax(B, 1)))#在B矩阵中对比每行
    print(sess.run(tf.argmax(C, 0)))#对C向量,只能比较行,结果返回数值

结果:
[0 0 0 0 0]
[1 1 0]
[4]
[2 1]
3

二、 tf.argmin知识点理解

与tf.argmax目的相反,用法相似。

2.1 作用

找到对应向量矩阵中的最小值问题。

2.2 表示

tf.argmin的完整表示tf.argmininput,axis)
1、input可以是向量、或者矩阵(没有数值,单独一个数,没有比较的意义)。
2、根据axis取值的不同返回每行或者每列最小值的索引。
3、当axis=0,表示比较列,返回每列最小值的索引。当axis=1,表示比较行,返回每行最小值的索引。

2.3 实例

还是上一个例子为标准,仅更改tf.argmax为tf.argmin,具体代码如下:

import tensorflow as tf
import numpy as np
 
A = [[1,3,4,5,6]]
B = [[1,3,4], [2,4,1]]
C = [1,2,5,7]
with tf.compat.v1.Session() as sess:
    print(sess.run(tf.argmin(A, 0)))
    print(sess.run(tf.argmin(B, 0)))
    print(sess.run(tf.argmin(A, 1)))
    print(sess.run(tf.argmin(B, 1)))
    print(sess.run(tf.argmin(C, 0)))

输出:
[0 0 0 0 0]
[0 0 1]
[0]
[0 2]
0

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
import tensorflow as tf import numpy as np import gym # 创建 CartPole 游戏环境 env = gym.make('CartPole-v1') # 定义神经网络模型 model = tf.keras.models.Sequential([ tf.keras.layers.Dense(24, activation='relu', input_shape=(4,)), tf.keras.layers.Dense(24, activation='relu'), tf.keras.layers.Dense(2, activation='linear') ]) # 定义优化器和损失函数 optimizer = tf.keras.optimizers.Adam() loss_fn = tf.keras.losses.MeanSquaredError() # 定义超参数 gamma = 0.99 # 折扣因子 epsilon = 1.0 # ε-贪心策略中的初始 ε 值 epsilon_min = 0.01 # ε-贪心策略中的最小 ε 值 epsilon_decay = 0.995 # ε-贪心策略中的衰减值 batch_size = 32 # 每个批次的样本数量 memory = [] # 记忆池 # 定义动作选择函数 def choose_action(state): if np.random.rand() < epsilon: return env.action_space.sample() else: Q_values = model.predict(state[np.newaxis]) return np.argmax(Q_values[0]) # 定义经验回放函数 def replay(batch_size): batch = np.random.choice(len(memory), batch_size, replace=False) for index in batch: state, action, reward, next_state, done = memory[index] target = model.predict(state[np.newaxis]) if done: target[0][action] = reward else: Q_future = np.max(model.predict(next_state[np.newaxis])[0]) target[0][action] = reward + Q_future * gamma model.fit(state[np.newaxis], target, epochs=1, verbose=0) # 训练模型 for episode in range(1000): state = env.reset() done = False total_reward = 0 while not done: action = choose_action(state) next_state, reward, done, _ = env.step(action) memory.append((state, action, reward, next_state, done)) state = next_state total_reward += reward if len(memory) > batch_size: replay(batch_size) epsilon = max(epsilon_min, epsilon * epsilon_decay) print("Episode {}: Score = {}, ε = {:.2f}".format(episode, total_reward, epsilon))next_state, reward, done, _ = env.step(action) ValueError: too many values to unpack (expected 4)优化代码
最新发布
05-24

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值