(算法练习)——问题 1073: 弟弟的作业

要求:
https://www.dotcpp.com/oj/problem1073.html
这一题深深受到了C的伤害!!!!
正则简直就是为这种题而生的!!!but,python都快忘光了。。
手动造轮子可还行。。
两点说明:
1、C++对于识别是否读到文件末尾(EOF)其实很方便,while(cin>>str[signal])即可~~
2、几个stop节点,要注意算c的时候和前面两个有细微差别

#include <stdio.h>
#include <math.h>
#include <stdlib.h>
#include <iostream>
#include <string>
#include <sstream>
#include <algorithm>
using namespace std;

string str[110];

int main(){
	int signal = 0;
	int ans = 0;
	while(cin>>str[signal]){
		int t = 1;   //第二个数的符号记录 
		int a = 0,b = 0,c = 0;
		int stop1 = 0,stop2 = 0;    //分界点 
		for(int i = 0;i <str[signal].size();i++){
			if(str[signal][i] == '+' || str[signal][i] == '-'){
				for(int j = i-1;j>=0;j--){
					a = a + pow(10.0,i-j-1)*(str[signal][j] - '0');
				}
				stop1 = i;
				if(str[signal][i] == '-'){
					t = -1;  //正负号记录 
				}
				//printf("%d ",a);
			}
			if(str[signal][i] == '='){
				for(int j = i-1;j>=stop1 + 1;j--){
					b = b + pow(10.0,i-j-1)*(str[signal][j] - '0');
				}
				stop2 = i;
				b = b*t;
				//printf("%d ",b);
			}
			if(i == str[signal].size() - 1){
				if(str[signal][i] == '?'){
					c = -1;    //因为不可能为负数 
					//printf("%d ",c);
				}
				else{
					for(int j = i;j>=stop2 + 1;j--){
						c = c + pow(10.0,i-j)*(str[signal][j] - '0');
					}
					//printf("%d ",c);
				}
				
			}
		}
		if(a + b == c){
			ans++;
		}
		
		signal++;
		//cin>>str[signal];
	}
	printf("%d",ans);
		
}

  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
Prioritized Replay 是 Deep Q-Network (DQN) 中的一种重要改进算法。在传统的 DQN 算法中,模型训练是基于经验回放技术的。简单来说,就是将之前的一些观察和动作的经验随机地从经验池中抽取出来进行训练。但是,这种随机抽样并没有考虑到每个经验的重要性。有些经验虽然出现的次数很少,但是对模型的训练影响很大。因此,如果我们能够对经验进行优先级的排序,就能够更加有效地训练模型。 在 Prioritized Replay 算法中,我们使用了一个优先级队列来对经验进行排序。每个经验的优先级是根据其对模型训练的贡献来计算的。具体来说,每个经验的优先级为: $P_i = |\delta_i| + \epsilon$ 其中 $|\delta_i|$ 表示当前状态下真实 Q 值与估计 Q 值之差的绝对值,$\epsilon$ 是一个很小的常数,避免了某些经验的优先级为 0。这个公式的意思是,我们更倾向于选择那些真实 Q 值与估计 Q 值之差较大的经验进行训练。 在进行经验回放时,我们根据经验的优先级从优先级队列中抽取出经验。我们还需要一个重要的参数 $\alpha$,它表示优先级的重要程度。在优先级队列中,每个经验的优先级 $P_i$ 都会被赋予一个权重 $w_i$,它表示该经验在训练中的重要性。这个权重的计算公式为: $w_i = (\frac{1}{N} \frac{1}{P_i})^{\alpha}$ 其中 $N$ 是经验池中经验的总数,$\alpha$ 是一个超参数,控制优先级的重要程度。这个公式的意思是,优先级较高的经验在训练中得到的权重也较高,从而更加有效地更新模型。 需要注意的是,在 Prioritized Replay 算法中,我们对经验进行了优先级排序,但是这并不意味着我们只选择优先级高的经验进行训练。为了保证训练的稳定性,我们还需要引入一个随机因素,以一定的概率从优先级较低的经验中进行抽样。 总之,Prioritized Replay 算法通过对经验进行优先级排序,从而更加有效地训练模型。它是 DQN 算法的一个重要改进,被广泛地应用于深度强化学习领域。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值