H - Random Kth Max
题意:
给你 N N N个连续随机变量 X 1 , X 2 . . . X n X_1,X_2...X_n X1,X2...Xn.
其中 X i X_i Xi 在区间 [ L i , R i ] [L_i,R_i] [Li,Ri]内均匀分布,求第 K K K大数的期望。
题解:
一、求解子问题
先看这个子问题:
N N N个连续随机变量 X 1 , X 2 . . . X n X_1,X_2...X_n X1,X2...Xn都服从 U ( 0 , 1 ) U(0, 1) U(0,1),求第 k k k大的数的期望。
我们在大学的**《概率论与数理统计》**学过,均匀分布的概率分布函数 F ( x ) = x F(x)=x F(x)=x.对于整个问题,其概率分布函数 F X ( x ) = P ( X < x ) F_X(x)=P(X<x) FX(x)=P(X<x), 也就是第 K K K大的数小于 x x x的概率。
这个期望很难用正常算法解出来,所以官方题解给出了另一种反向思路:
我们算 1 − F ( x ) 1-F(x) 1−F(x), 也就是第 K K K大的数大于 x x x的概率。
这个事件可以分为以下情况:(等于 x x x归于任何一种情况都行)
- K K K个数大于 x x x, N − K N-K N−K个数小于 x x x;
- K + 1 K+1 K+1个数大于 x x x, N − K − 1 N-K-1 N−K−1个数小于 x x x;
。。。。。
- N N N个数全大于 x x x.
所以,可以写出:
KaTeX parse error: No such environment: equation at position 8: \begin{̲e̲q̲u̲a̲t̲i̲o̲n̲}̲ 1-F(x)=\sum_{i…
我们学过,连续随机变量的期望可以用以下公式计算:
E
(
X
)
=
∫
−
∞
+
∞
x
f
(
x
)
d
x
(2)
E(X)=\int_{-\infty}^{+\infty}xf(x)dx \tag{2}
E(X)=∫−∞+∞xf(x)dx(2)
其中
f
(
x
)
f(x)
f(x)为概率密度函数。我们可以对上述式子使用分部积分变形:
∫
x
f
(
x
)
d
x
=
∫
x
d
F
(
x
)
=
x
F
(
x
)
−
∫
F
(
x
)
d
x
(3)
\int xf(x)dx = \int xdF(x)=xF(x)-\int F(x)dx \tag{3}
∫xf(x)dx=∫xdF(x)=xF(x)−∫F(x)dx(3)
设
X
X
X的取值范围为
[
a
,
b
]
[a,b]
[a,b],带入上式子:
b
F
(
b
)
−
a
F
(
a
)
−
∫
a
b
F
(
x
)
d
x
=
b
−
∫
a
b
F
(
x
)
d
x
=
a
+
(
b
−
a
)
−
∫
a
b
F
(
x
)
d
x
=
a
+
∫
a
b
(
1
−
F
(
x
)
)
d
x
(4)
bF(b)-aF(a)-\int_a^bF(x)dx =b-\int_a^bF(x)dx \\ =a+(b-a)-\int_a^bF(x)dx \\ =a+\int_a^b(1-F(x))dx \tag{4}
bF(b)−aF(a)−∫abF(x)dx=b−∫abF(x)dx=a+(b−a)−∫abF(x)dx=a+∫ab(1−F(x))dx(4)
(
1
)
(1)
(1)代入
(
4
)
(4)
(4) :
E
(
X
)
=
∫
0
1
(
∑
i
=
k
n
C
n
i
(
1
−
x
)
i
x
(
n
−
i
)
)
d
x
=
∑
i
=
k
n
C
n
i
∫
0
1
(
1
−
x
)
i
x
(
n
−
i
)
d
x
(5)
E(X) = \int_0^1(\sum_{i=k}^nC_{n}^i(1-x)^ix^{(n-i)})dx \\ = \sum_{i=k}^nC_{n}^i\int_0^1(1-x)^ix^{(n-i)}dx \tag{5}
E(X)=∫01(i=k∑nCni(1−x)ix(n−i))dx=i=k∑nCni∫01(1−x)ix(n−i)dx(5)
根据beta函数 的定义,积分里面那东西等于
B
(
n
−
i
+
1
,
i
+
1
)
B(n-i+1,i+1)
B(n−i+1,i+1), 又根据beta函数和gamma函数的关系,有
B
(
P
,
Q
)
=
Γ
(
P
)
Γ
(
Q
)
Γ
(
P
+
Q
)
(6)
B(P, Q) = \frac{\Gamma(P)\Gamma(Q)}{\Gamma(P+Q)} \tag6
B(P,Q)=Γ(P+Q)Γ(P)Γ(Q)(6)
带入
(
5
)
(5)
(5):
E
(
X
)
=
∑
i
=
k
n
C
n
i
∫
0
1
(
1
−
x
)
i
x
(
n
−
i
)
d
x
=
∑
i
=
k
n
C
n
i
(
n
−
i
)
!
i
!
(
n
+
1
)
!
=
∑
i
=
k
n
1
1
+
n
=
n
−
k
+
1
1
+
n
(7)
E(X) = \sum_{i=k}^nC_{n}^i\int_0^1(1-x)^ix^{(n-i)}dx \\ = \sum_{i=k}^nC_{n}^i \frac{(n-i)!i!}{(n+1)!} \\ = \sum_{i=k}^n\frac{1}{1+n} \\ = \frac{n-k+1}{1+n} \tag7
E(X)=i=k∑nCni∫01(1−x)ix(n−i)dx=i=k∑nCni(n+1)!(n−i)!i!=i=k∑n1+n1=1+nn−k+1(7)
这样我们就把子问题算出来了。
二、利用子问题计算原题
我们可以利用子问题的结论,把原题拆成一个一个线段,先让某个排名的数落在长度为1的线段里,再算线段里面某个名次对整个答案的贡献。
因为只是排名,前面几个数怎么选对后面没关系,因此可以用DP来做:
对每个线段 [ A , A + 1 ] [A, A+1] [A,A+1], d p ( i , j , k ) dp(i,j,k) dp(i,j,k)表示前 i i i个数,有 j j j个数在线段右边, k k k个数在线段里面的概率。
那么计算这个dp的时候,我们通过第i个点的选取位置,决定该从哪个状态转移过来,无外乎三种情况:
-
第 i i i个点取在 A A A左边,那么仍有 j j j个数在线段右边, k k k个数在线段里面,跟 d p [ i − 1 ] [ j ] [ k ] dp[i-1][j][k] dp[i−1][j][k]有关;
-
第 i i i个点取在线段内部,那么有 j j j个数在线段右边, k − 1 k-1 k−1个数在线段里面,跟 d p [ i − 1 ] [ j ] [ k − 1 ] dp[i-1][j][k-1] dp[i−1][j][k−1]有关;
-
第 i i i个点取在 A + 1 A+1 A+1右边,那么有 j − 1 j-1 j−1个数在线段右边, k k k个数在线段里面,跟 d p [ i − 1 ] [ j − 1 ] [ k ] dp[i-1][j-1][k] dp[i−1][j−1][k]有关;
实现的时候还需要判断下能不能取到,和数组越不越界。
然后算最终答案,第一维肯定是 n n n不用说了,分别讨论每个线段,每个 ( j , s ) (j,s) (j,s)对答案的贡献:
首先,出现在线段
[
a
,
a
+
1
]
[a, a+1]
[a,a+1] 中有
s
s
s个数,右边有
j
j
j个数的概率是
d
p
[
n
]
[
j
]
[
s
]
dp[n][j][s]
dp[n][j][s], 我们要计算这种概率下,整体第
K
K
K大的期望,那么就等价于线段里面的第
K
−
j
K-j
K−j大的期望,利用第一部分中已有结论,这个期望值就是
1
+
k
−
j
s
+
1
1+\frac{k-j}{s+1}
1+s+1k−j, 线段是从a开始的,还要加上偏移量a,所以答案等于:
∑
a
=
0
m
a
x
(
R
i
)
∑
(
j
,
s
)
d
p
[
n
]
[
j
]
[
s
]
∗
(
a
+
1
+
k
−
j
s
+
1
)
\sum_{a=0}^{max(R_i)}\sum_{(j, s)}dp[n][j][s]*(a+1+\frac{k-j}{s+1})
a=0∑max(Ri)(j,s)∑dp[n][j][s]∗(a+1+s+1k−j)
最终的时间复杂度约为
O
(
n
4
)
O(n^4)
O(n4),n只有100,可过。
#include <bits/stdc++.h>
using namespace std;
typedef long long ll;
const int N = 110;
const int MOD = 998244353;
int n, K;
ll dp[N][N][N], inv[N];
ll l[N], r[N];
ll qpow(ll a, ll b) {
ll res = 1;
while (b) {
if (b & 1) res = res * a % MOD;
a = a * a % MOD;
b >>= 1;
}
return res;
}
void init() {
for (int i = 1; i < 110; i++) {
inv[i] = qpow(i, MOD - 2);
}
}
int main() {
cin >> n >> K;
ll minl = 200, maxr = -1;
for (int i = 1; i <= n; i++) {
cin >> l[i] >> r[i];
minl = min(minl, l[i]);
maxr = max(maxr, r[i]);
}
init();
ll res = 0;
for (ll A = minl; A <= maxr; A++) {
memset(dp, 0, sizeof(dp));
dp[0][0][0] = 1; // 没有数,那么只有0 0 一种情况
for (int i = 1; i <= n; i++) {
for (int j = 0; j < K; j++) {
for (int k = 0; k <= i; k++) {
// cout << k << ',' << i << endl;
ll& x = dp[i][j][k];
// case 1: 左边
if (A >= l[i]) { // 能选得到才有意义
ll temp = dp[i - 1][j][k] * (min(r[i], A) - l[i]) % MOD;
temp = temp * inv[r[i] - l[i]] % MOD;
x = (x + temp) % MOD;
}
// case2
if (l[i] <= A && A + 1 <= r[i] && k >= 1) {
ll temp = dp[i - 1][j][k - 1] * inv[r[i] - l[i]] % MOD;
x = (x + temp) % MOD;
}
// case 3:
if (A + 1 <= r[i] && j >= 1) {
ll temp = dp[i - 1][j - 1][k] * (r[i] - max(l[i], A + 1)) % MOD;
temp = temp * inv[r[i] - l[i]] % MOD;
x = (x + temp) % MOD;
}
}
}
for (int j = 0; j < K; j++)
for (int s = 0; s <= n; s++)
if (K - j <= s) {
ll aa = dp[n][j][s];
ll temp1 = (K-j)*inv[s+1] % MOD;
ll temp2 = (A+1+MOD-temp1) % MOD;
res += aa * temp2 % MOD;
res %= MOD;
}
}
}
cout << res << endl;
return 0;
}