bzoj 1419（期望dp）

最新推荐文章于 2019-07-13 14:34:00 发布

嘉伟森的猫

最新推荐文章于 2019-07-13 14:34:00 发布

阅读量398

点赞数

分类专栏： OI-dp 文章标签：期望dp

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/KGV093/article/details/78386235

版权

OI-dp 专栏收录该内容

83 篇文章 0 订阅

订阅专栏

题解：

设f[i][j]表示已经使用了i张红牌，j张黑牌的最大期望收益。

转移方程：f[i][j]=max(0.0,1.0*i/(i+j)*(f[i-1][j]+1)+1.0*j/(i+j)*(f[i][j-1]-1))

边界：f[i][0]=i

直接做要MLE，所以第一维采用滚动数组优化。

#include<cstdio>
#include<cstring>
#include<iostream>
#include<algorithm>
using namespace std;
typedef long long ll;
double f[2][5002];
int n,m;
int main() {
	scanf("%d%d",&n,&m);
	int cur=0;
	for (int i=1;i<=n;++i) {
		cur^=1,f[cur][0]=i;
		for (int j=1;j<=m;++j)
			f[cur][j]=max(0.0,1.0*i/(i+j)*(f[cur^1][j]+1)+1.0*j/(i+j)*(f[cur][j-1]-1));
	}
	printf("%.6lf\n",1.0*(ll)(f[cur][m]*1000000)/1000000);
	return 0;
}

嘉伟森的猫

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

嘉伟森的猫 CSDN认证博客专家 CSDN认证企业博客

码龄7年

408: 原创

4万+: 周排名

226万+: 总排名

16万+: 访问

: 等级

5434: 积分

39: 粉丝

35: 获赞

59: 评论

195: 收藏

私信

关注

热门文章

分类专栏

最新评论

基于PyTorch的GRU网络实现股票价格预测
小毅学代码: 博主，可以分享一下数据吗？
Deep Reinforcement Learning入门 - DQN/Policy Gradient实现LunarLander-v2
嘉伟森的猫: 可能跟它环境具体定义reward有关系，可能边界判定不是很严谨，如果需要的话建议细看一下对应的Gym Environment源码
Deep Reinforcement Learning入门 - DQN/Policy Gradient实现LunarLander-v2
你是谁0206: 为什么会出现落在里面了反而reward低的情况呢？有时候罗在外面reward反而更高
Deep Reinforcement Learning入门 - DQN/Policy Gradient实现LunarLander-v2
嘉伟森的猫: 这个似乎是因为env.reset()返回类型不是预期的ndarray，可以逐行debug一下，博主已经有一段时间没有手写过训练过程了（一般用stable-baselines3等），抱歉~
Deep Reinforcement Learning入门 - DQN/Policy Gradient实现LunarLander-v2
jack-pudding134: 我在复制了你的代码，但出现如下报错： --------------------------------------------------------------------------- TypeError Traceback (most recent call last) Cell In[70], line 2 1 agent = Agent() ----> 2 agent.train(700) 3 agent.test(100) 5 env.close() Cell In[69], line 124, in Agent.train(self, episodes) 122 total_reward = 0 123 cur_state = env.reset() --> 124 cur_state = torch.from_numpy(cur_state) 125 for tim in count(): 126 action = self.get_action(cur_state) TypeError: expected np.ndarray (got tuple) 我是初学者，不知道这是什么意思，请问有人能解答一下吗？万分感谢！！！

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。