期末预测之最佳阈值（python）

最新推荐文章于 2023-03-04 10:43:29 发布

小诃

最新推荐文章于 2023-03-04 10:43:29 发布

阅读量813

点赞数 1

本文链接：https://blog.csdn.net/qq_43211230/article/details/123602410

版权

安全指数预测模型阈值选择挂科概率数据分析

关键词由CSDN通过智能技术生成

题目背景

考虑到安全指数是一个较大范围内的整数、小菜很可能搞不清楚自己是否真的安全，顿顿决定设置一个阈值 θ，以便将安全指数 y 转化为一个具体的预测结果——“会挂科”或“不会挂科”。

因为安全指数越高表明小菜同学挂科的可能性越低，所以当 y≥θ 时，顿顿会预测小菜这学期很安全、不会挂科；反之若 y<θ，顿顿就会劝诫小菜：“你期末要挂科了，勿谓言之不预也。”

那么这个阈值该如何设定呢？顿顿准备从过往中寻找答案。

题目描述

具体来说，顿顿评估了 m 位同学上学期的安全指数，其中第 i（1≤i≤m）位同学的安全指数为 yi，是一个 [0,108] 范围内的整数；同时，该同学上学期的挂科情况记作 resulti∈0,1，其中 0 表示挂科、1 表示未挂科。

相应地，顿顿用 predictθ(y) 表示根据阈值 θ 将安全指数 y 转化为的具体预测结果。
如果 predictθ(yj) 与 resultj 相同，则说明阈值为 θ 时顿顿对第 j 位同学是否挂科预测正确；不同则说明预测错误。

predictθ(y)={0(y<θ)1(y≥θ)

最后，顿顿设计了如下公式来计算最佳阈值 θ∗：

θ∗=maxargmaxθ∈yi⁡∑j=1m(predictθ(yj)==resultj)

该公式亦可等价地表述为如下规则：

最佳阈值仅在 yi 中选取，即与某位同学的安全指数相同；
按照该阈值对这 m 位同学上学期的挂科情况进行预测，预测正确的次数最多（即准确率最高）；
多个阈值均可以达到最高准确率时，选取其中最大的。

输入格式

从标准输入读入数据。

输入的第一行包含一个正整数 m。

接下来输入 m 行，其中第 i（1≤i≤m）行包括用空格分隔的两个整数 yi 和 resulti，含义如上文所述。

输出格式

输出到标准输出。

输出一个整数，表示最佳阈值 θ∗。

样例1输入

Data

样例1输出

Data

样例1解释

按照规则一，最佳阈值的选取范围为 0,1,3,5,7。

θ=0 时，预测正确次数为 4；

θ=1 时，预测正确次数为 5；

θ=3 时，预测正确次数为 5；

θ=5 时，预测正确次数为 4；

θ=7 时，预测正确次数为 3。

阈值选取为 1 或 3 时，预测准确率最高；
所以按照规则二，最佳阈值的选取范围缩小为 1,3。

依规则三，θ∗=max1,3=3。

样例2输入

8
5 1
5 0
5 0
2 1
3 0
4 0
100000000 1
1 0

Data

样例2输出

100000000

Data

子任务

70% 的测试数据保证 m≤200；

全部的测试数据保证 2≤m≤105。

代码

n = int(input())
nums =  []
for i in range(n):
    p,q = map(int, input().split())
    nums.append([p,q])
# 题目没有明确是有序的所以要先排序
nums.sort(key = lambda x:(x[0],x[1]))
sum = [0]
# 前缀和计算
for i in range(n):
    sum.append(nums[i][1])
    sum[-1] += sum[-2]
dict_ = {}
# 加一个字典方便标记,主要记录第一个点
for i in range(n-1,-1,-1):
    dict_[nums[i][0]] = nums[i][1]
# 计算
res = [0,0]
i = 0
while i<n:
    if dict_[nums[i][0]] == nums[i][1]:
        # print(i)
        predict = [i, n-i]
        result = [i - sum[i], sum[n]-sum[i]]
        if res[1] <= min(predict[0],result[0]) + min(predict[1],result[1]):
            res = [nums[i][0], min(predict[0],result[0]) + min(predict[1],result[1])]
        while i+1<n and nums[i][0] == nums[i+1][0]: # 重复点直接跳过
             i += 1
    i += 1
print(res[0])