深度学习-强化学习专业术语解释

确定的数值用小写字母表示,还不知道的就是大写字母

state:当前的状态

state transition:状态转移,做出动作后state(状态)变了的过程。

有状态转移函数:p(s’|s,a)=p(S'=s’|S=s,A=a)表示原本状态为s,做出a的动作,得到为s'的新状态的概率。

action:动作

agent:做动作的个体

reward:奖励,做完一个动作就会有一个奖励,会影响强化学习的好坏。eg:打超级马里奥,吃金币有金币+1,赢游戏有金币+10000,死了金币-100那这样的奖励就可以更加激励ai去赢游戏,而不是吃路途中的金币。

environment:环境,也就是程序

policy:根据state决定agent做什么动作

policy function:policy对应的函数。eg:π(a|s)为在s状态时做a动作的概率。

强化学习就是学policy function,让电脑自动操作任务打赢游戏。

状态转移可以是随机也可以是确定,随机性取决于环境。

eg:

 up往上跳之后,状态还取决于w.p,取决于下面的小蘑菇运动方向,而他的运动方向是有概率的,所以新s是随机的。

(state,action,reward)trajectory:循环s,a,r。(state,action,reward)

return:(aka cumulative future reward)未来的每次奖励

Ut=Rt + Rt+1 + Rt+2 + Rt+3....。表示将t时刻开始的每次奖励都加起来

 由于未来具有不确定性,因此给未来的reward带上权重。

所以有discounted return 折扣回报。

discounted return:

Ut=Rt + yRt+1 + y平方Rt+2 + y三次方Rt+3....。由未来的奖励的重要程度决定y的取值,1

为和该时刻同样重要。

Value function(价值函数)Qπ:

因为未来的动作发生有概率,你也不知道会做哪一个动作,所以用Qπ来表示,做期望。

Qπ(st,at)=E[Ut|St=st,At=at]。表示根据未来每个动作发生的概率做期望

对policy function和state function做积分,积掉At+1,At+2...,就可以得到基于当前st,at并对未来发生各动作的平均情况的期望,得到未来的平均价值,这就是价值函数。就可以知道当前状态下做哪个动作好与不好。这跟policy function有关。

Optimal action-value function:最优价值函数

当前st,at的max的Qπ。

state-value function(状态价值函数):

 表示Qπ的期望。可以把A作为随机变量,对A求期望,把A消掉。也就是基于目前状态做任何动作的期望,可以衡量目前的胜率,情况。π只和s有关。

对Qπ求期望也就是累加或积分每个权重乘Qπ,在这里权重就是概率,也就是π函数(决策函数)。

  • 0
    点赞
  • 6
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
深度学习-语音识别是一种利用神经网络模型进行语音识别的技术。Python语言在深度学习领域有广泛应用,并提供了多个相关框架,如TensorFlow和PyTorch,便于实现语音识别任务。 在进行深度学习-语音识别实战时,首先需要准备语音数据集。可以使用已有的公开数据集,也可以自己收集。常用的数据集包括LibriSpeech、TIMIT和Aurora4等。 接下来,需要将语音数据集进行预处理。预处理步骤包括数据清洗、标签处理和特征提取。数据清洗可以剔除噪音和异常数据,标签处理主要是将语音数据与对应的文字标签进行对齐,特征提取则是将语音信号转换为机器学习算法可以处理的数值特征,常用的特征提取方法有Mel频谱特征和MFCC等。 然后,需要选择合适的神经网络模型进行语音识别。常用的模型包括基于卷积神经网络(CNN)和循环神经网络(RNN)的混合模型。模型的选择要根据数据集的规模和任务需求进行。 在实际实现中,可以利用Python的深度学习框架(如TensorFlow和PyTorch)来构建和训练神经网络模型。框架提供了高级的API和函数,可以方便地定义模型结构、进行参数优化和模型评估。 训练完成后,可以使用训练好的模型进行语音识别。使用Python进行语音识别时,可以使用语音信号进行预测,并得到相应的文本结果。 总之,深度学习-语音识别实战是一个复杂的任务,但借助Python的强大生态系统和深度学习框架,可以更高效地进行模型训练和识别任务的实现。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值