ccf-csp期末预测之最佳阈值满分题解202012-2

最新推荐文章于 2022-03-01 12:37:40 发布

不吃汤达人

最新推荐文章于 2022-03-01 12:37:40 发布

阅读量513

点赞数

分类专栏：刷题

本文链接：https://blog.csdn.net/Broken__Ice/article/details/115219925

版权

前缀和哈希表最佳阈值预测准确率算法优化

关键词由CSDN通过智能技术生成

刷题专栏收录该内容

1 篇文章 1 订阅

订阅专栏

题目描述

具体来说，顿顿评估了 $m$ 位同学上学期的安全指数，其中第 $i\ (1\leq i\leq m)$ 位同学的安全指数为 $y_i$ ，是一个 [0,108] 范围内的整数；同时，该同学上学期的挂科情况记作 $result_i\in 0,1$ ，其中 0 表示挂科、1 表示未挂科。

相应地，顿顿用 $predict_\theta(y)$ 表示根据阈值 $\theta$ 将安全指数 $y$ 转化为的具体预测结果。如果 $predict_\theta(y_j)$ 与 $result_j$ 相同，则说明阈值为 $\theta$ 时顿顿对第 $j$ 位同学是否挂科预测正确；不同则说明预测错误。
$predict_\theta(y)=\left\{ \begin{aligned} 0\quad(y<\theta) \\ 1\quad(y\geq\theta) \end{aligned} \right.$
最后，顿顿设计了如下公式来计算最佳阈值 $\theta^*$

$\theta^*=\max\ \argmax_{\theta\in y_i}\sum_{j=1}^m(predict_\theta(y)==result_j)$

该公式亦可等价地表述为如下规则：

最佳阈值仅在 $y_i$ 中选取，即与某位同学的安全指数相同；
按照该阈值对这 $m$ 位同学上学期的挂科情况进行预测，预测正确的次数最多（即准确率最高）；
多个阈值均可以达到最高准确率时，选取其中最大的。

输入格式

从标准输入读入数据。

输入的第一行包含一个正整数 $m$ 。

接下来输入 $m$ 行，其中第 $i\ (1\leq i\leq m)$ 行包括用空格分隔的两个整数 $y_i$ 和 $result_i$ ，含义如上文所述。

输出格式

输出到标准输出。

输出一个整数，表示最佳阈值 $\theta^*$ 。

题目解析

由于全部测试数据保证 $2\leq m \leq 10^5$ ，因此暴力循环法 $O(n^2)$ 会TLE
暴力法这里就不讲了，相信大家都做得出来。

前缀和

我们首先将所有的数据按 $y$ 升序排序， $y$ 相同的按 $0 < 1$ 排序
如样例1输入所示

然后注意到，我们的阈值 $\theta$ 取自所有出现过的 $y$ ，而由公式（1），当 $y_i<\theta$ 时，有 $predict(y_i) = 0$ ，反之 $predict(y_i) = 1$
$predict_\theta(y)=\left\{ \begin{aligned} 0\quad(y<\theta) \\ 1\quad(y\geq\theta) \end{aligned} \right.\tag{1}$
因此当我们任意选取 $y_k$ 时

当 $y_i<y_k$ 即 $i < k$ ，且 $result_i$ =0时预测正确，也就是说，预测正确的数量=预测为0的数量=总的数量-预测为1的数量
而预测为1的数量可以简单由前面所有的 $result_i$ 累加而得，因此得到公式（2）
$count\_left_{k}=k-\sum_{i=0}^{k-1} result_i \tag{2}$
当 $y_i\geq y_k$ 即 $i\geq k$ ，且 $result_i$ =1时预测正确，也就是说，预测正确的数量=预测为1的数量
$count\_right_{k}=\sum_{i=k}^{m} result_i \tag{3}$

根据公式（2）（3），可以得到计算正确次数 $count_k=count\_left_k+count\_right_k$

而 $\sum_{i=k}^{m} result_i$ 这类求和，显然可以通过前缀和预处理的方式得到，(i, k)区间的求和可以由prefix[k]-prefix[i]得到

但是这样还不够

从样例1可以看出，给出的 $y$ 的值并非出现一次，所以上面的 $y_i\geq y_k$ 即 $i\geq k$ 存在漏洞
我的方法是采用哈希存储每个 $y$ 第一次出现的位置 $p (y)$ ，更新后的公式为
$count\_left_{k}=p(k)-\sum_{i=0}^{p(k)-1} result_i \tag{4}$
$count\_right_{k}=\sum_{i=p(k)}^{m} result_i \tag{5}$
最后只需遍历k值，求得使 $count_k$ 最大的k值对应的y值即可，存在相同 $count_k$ 时取较大的y

算法分析

排序 $O (n l o g n)$
求前缀和 $O (n)$
记录相同y值的起点 $O (n)$
利用前缀和遍历求最大 $count_k$ 对应y值 $O (n)$

因此整体算法时间复杂度 $O (n l o g n)$

AC代码

#include <iostream>
#include <algorithm>
#include <map>

using namespace std;

//同学样例
struct A{
    int y;//安全指数
    int r;//挂科情况
}a[100001];

//结构体按y升序排序，y相同则按r升序排序
bool cmp(A a1, A a2) {
    if(a1.y == a2.y) return a1.r < a2.r;
    return a1.y < a2.y;
}

int main() {
    int n;  cin>>n;
    int ret = -1;
    int maxx = -1;
    for(int i = 0; i < n; i ++) {
        cin>>a[i].y>>a[i].r;
    }
    //排序同学们
    sort(a, a+n, cmp);
    
    
    //前缀和数组
    int yes[n+1];
    yes[0] = 0;
    for(int i = 1; i < n+1; i ++) {
        yes[i] = yes[i-1] + a[i-1].r;
    }

    //记录第一个出现的y位置
    map<int, int> m;
    for(int i = 0; i < n; i ++) {
        if(m.count(a[i].y) == 0) {
            m[a[i].y] = i; 
        }
    }

    //main function
    for(int i = 0; i < n; i ++) {
        int y = a[i].y;
        //在y前面的0的个数 + 在y后面（包括y）的1的个数
        int r = (m[y]-yes[m[y]]) + (yes[n]-yes[m[y]]);
        //更新r最大的y
        if(r >= maxx) {
            ret = y;
            maxx = r;
        }
    }
    cout<<ret<<endl;
    //system("pause");
    return 0;
}