统计各数据集上的坏占比

最新推荐文章于 2023-03-05 17:13:27 发布

胖胖大王叫我来巡山

最新推荐文章于 2023-03-05 17:13:27 发布

阅读量1.7k

点赞数

分类专栏： python python数据分析文章标签：风控 python 机器学习

本文链接：https://blog.csdn.net/qq_35000538/article/details/121492835

版权

python 同时被 2 个专栏收录

14 篇文章 0 订阅

订阅专栏

python数据分析

3 篇文章 0 订阅

订阅专栏

本文介绍了Pandas库中DataFrame对象的groupby方法，用于对数据进行分组。通过实例展示了如何使用agg进行单列聚合和apply进行多列聚合，包括计算样本量、坏样本量以及坏样本占比等统计指标。这有助于数据分析师更有效地处理和分析数据。

摘要由CSDN通过智能技术生成

'''
dataframe的groupby:
单列聚合:agg
多列聚合:apply
'''
df.groupby(['dataSet']).target.agg([('样本量','count'),('坏样本量','sum'),('坏占比',lambda t:t.sum()/t.shape[0])])

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

胖胖大王叫我来巡山

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

pandas dataframe数据聚合groupby、agg、privot基于sum统计详解及实例

data+scenario+science+insight

05-01

1982

pandas dataframe数据聚合groupby、agg、privot基于sum统计详解及实例知道了sum、那么min、max、mean、median都是举一反三的事情了。在日常的数据分析中，经常需要将数据根据某个（多个）字段划分为不同的群体（group）进行分析，如电商领域将全国的总销售额根据省份进行划分，分析各省销售额的变化情况，社交领域将用户根据画像（性别、年龄）进行细分，研究用户的使用情况和偏好等。在Pandas中，上述的数据处理操作主要运用groupby完成。聚合(aggre

模型评估指标之概率分布评估指标(二)

忘川的博客

11-26

2615

一. ROC曲线：横轴是FPR(False Positive Rate)，纵轴是TPR(True Positive Rate)。　关于ROC的绘制过程上篇文章已经讲解过了ROC曲线的绘制咱们在这里简单介绍一下：一个完美的模型可以通过设定一个概率阈值点，使得大于该概率阈值的样本均为正样本即坏样本，小于该概率阈值的样本均为负样本即好样本。由图可以看出： ROC 曲线由 A 点经过 B 点到达 C 点，表示在舍弃 0%的好用户的前提下，可以 100%地拒绝坏用户，即没有坏用户被准入图中虚线可以看

参与评论您还未登录，请先登录后发表或查看评论

#####好好好####关于模型检验的ROC值和KS值的异同_ROC曲线和KS值

木东的博客

11-16

2560

关于模型检验的ROC值和KS值的异同_ROC曲线和KS值按我的理解，ROC曲线是累计坏占比曲线（图中蓝色曲线）下面的面积（>0.5），KS值是累计坏占比曲线-累计好占比曲线差值（图中红色曲线）的最大值。实际上他们都是一样的？不知道我的理解是否有误？谢谢！精彩解答： ROC(Receiver Operating Characteristic Cu

转：Python数据分箱，计算woe，iv

纸上得来终觉浅

12-22

4072

转自：https://zhuanlan.zhihu.com/p/38440477 数据分箱的重要性及优势：离散特征的增加和减少都很容易，易于模型的快速迭代；稀疏向量内积乘法运算速度快，计算结果方便存储，容易扩展；离散化后的特征对异常数据有很强的鲁棒性：比如一个特征是年龄>30是1，否则0。如果特征没有离散化，一个异常数据“年龄300岁”会给模型造成很大的干扰；逻辑回归属于广义线性模型，表达能力受限；单变量离散化为N个后，每个变量有单独的权重，相当于为模型引入了非线性，能够提升模型表达

笔记︱信用风险模型（申请评分、行为评分）与数据准备（违约期限、WOE转化）

热门推荐

素质云笔记

06-20

5万+

巴塞尔协议定义了金融风险类型：市场风险、作业风险、信用风险。信用风险ABC模型有进件申请评分、行为评分、催收评分。一、数据准备 1、排除一些特定的建模客户用于建模的客户或者申请者必须是日常审批过程中接触到的，需要排除以下两类人：异常行为：销户、按条例拒绝、特殊账户；特殊账户：出国、卡丢失/失窃、死亡、未成年、员工账户、VIP；其他：欺诈（根据反欺诈评分）、主动销户

coco数据集大小分类_目标检测数据集MSCOCO简介

weixin_39734020的博客

12-23

3547

简介介绍一下目标检测领域另外一个比较有名的数据集 MS COCO (Microsoft COCO: Common Objects in Context) .MSCOCO 数据集是微软构建的一个数据集，其包含 detection, segmentation, keypoints等任务。MSCOCO主要是为了解决detecting non-iconic views of objects(对应常说的de...

目标检测数据集MSCOCO详解

qq_38410428的博客

04-03

1万+

1. 前言介绍一下目标检测领域另外一个比较有名的数据集 MS COCO (Microsoft COCO: Common Objects in Context) . MSCOCO 数据集是微软构建的一个数据集，其包含 detection, segmentation, keypoints等任务。 MSCOCO主要是为了解决detecting non-iconic views of objects（对应常说的detection）, contextual reasoning between objects and

NBA球星生涯数据集分析

qq_58012062的博客

03-05

4500

实验背景NBA 作为世界上水平最高的篮球联赛，吸引了无数的球迷。每一场 NBA 比赛都会产生大量的数据信息，如果能够有效地运用这些数据，便可以充分发挥出其潜在价值。在每年赛季开始之前，大量的媒体专家都会对本赛季 NBA 常规赛的情况进行预测，这其中球队战绩和明星球员的个人数据是大家着重讨论的话题。及时而准确的完成对这些数据的预测一方面有利于各球队管理层在赛季进行前采

数据集：波士顿地区房价预测

林景的博客

10-10

1万+

数据集：波士顿地区房价预测 数据集下载地址本文以线性回归模型预测为主 1. 数据集说明变量名变量描述 CRIM 城镇人均犯罪率 ZN 住宅地超过25000平方英尺的比例 INDUS 城镇非零售商用土地的比例 CHAS 查理斯河空变量（如果边界是河流，则为1，否则为0） NOX 一氧化碳浓度 RM 住宅平均房间数 AGE 1940年之前建成的自用房屋比例 DIS 到波士顿五个中心区区域的加权距离 RAD 辐射性公路的接近指数 TAX 每10000美元的

【Udacity项目】TMDb电影数据集探索分析

~ Lily的学习分享 ~

10-28

5616

项目：TMDb电影数据集探索与分析目录简介数据整理探索性数据分析结论附录：参考资料列表简介本项目对包含10,000+条电影信息的数据集进行了探索与分析，围绕电影票房与用户评分、电影类别、演员、制片公司、档期等因素之间的相关性，探究了高票房电影的各种特征。数据来源于"电影数据库”（TMDb，The Movie Database）。项目过程包括数据整理、探索性数据分析、结论三个部...

大规模谷物数据集：GrainSpace

211160GrainSpace：一种用于细粒和领域自适应识别谷物的大规模数据集0Lei Fan 1 , 2 �† Yiwen Ding 1 � Dongdong Fan 1 Donglin Di 3 Maurice Pagnucco 2 Yang Song 20lei.fan1@unsw.edu.au...

超详细用Python进行信用评分卡建模【kaggle的give me some credit数据集】【风控建模】

weixin_43570097的博客

05-22

1万+

1 信用评分卡模型简介信用评分卡是一个通过个人数据对其还款能力、还款意愿进行定量评估的系统。在消费金融行业，信用评分卡主要有三种（A、B、C卡）： A卡：申请评分卡，贷前阶段使用，在客户获取期，建立信用风险评分，预测客户带来违约风险的概率大小； B卡：行为评分卡，贷中阶段引入，在客户借款处理期，建立申请风险评分模型，预测客户违约拖欠的风险概率，我们的B卡采用的是T+1离线计算出来的，针对复借用户特别有效，针对首借用户，B卡自动转为申请评分；B卡另外的价值还在于用户授信到借款之间的时间比较长的话，通过B卡能

语义分割VOC2012数据集各个分类像素点的占比权重统计

qq_19865329的博客

06-09

2775

VOC2012数据集存在各个类别不均衡的问题,类别数量差异达到几十倍采用交叉熵损失函数中我发现对于个别类别准确率很高(比如人),但是对于个别类别几乎没有预测对原因就在于类别不平衡所以可以考虑采用Focal loss来训练(或者说带权交叉熵损失函数) 多分类问题的Focal loss 的权重设置为 (1-class_weight)^γ class_weight为各个类别的占比,γ一般取值为2 我做了一个统计,得到如下结果 [0.7411024 , 0.0060736 , 0.00261201,

PermissionError: [Errno 1] Operation not permitted: '../middle_result/df_cleaned.csv'

qq_35000538的博客

01-08

7888

PermissionError: [Errno 1] Operation not permitted: '../middle_result/df_cleaned.csv'问题排查解决问题 spyder中的ipython console运行脚本，执行pd.read_csv()时出现报错： PermissionError: [Errno 1] Operation not permitted: ‘…/...

shap安装记录

qq_35000538的博客

07-09

7234

环境准备： windows10 python3.7 step1. 直接在python命令行输入 pip install shap ## 安装python 报错1：解决1：将python切换为python3.6即可(可重建一个python3.6的虚拟环境) step2. 在pycharm中运行脚本 import xgboost import shap # 训练一个XGBoost 模型 X, y = shap.datasets.boston() model = xgboost.train(

AttributeError: module 'torch.nn' has no attribute 'ModuleDict'

qq_35000538的博客

12-03

6936

1. 报错在安装pytorch后跑代码，遇到报错： AttributeError: module ‘torch.nn’ has no attribute ‘ModuleDict’ 2. 查找原因按照提示查看 torch.nn接口文档，发现原来版本的pytorch中的确没有这个模块，二0.4.0版本的pytorch中的torch.nn接口有ModuleDict模块 0.4.0文档链接：https...

pd.qcut()怎样返回切分点？

qq_35000538的博客

03-16

1123

Image.Draw模块报错

qq_35000538的博客

03-11

703

问题：在执行ImageDraw()的multiline_text()时出现报错 draw = ImageDraw.Draw(target) draw.multiline_text(self.text_loc[col], multi_text, fill=(font_color, font_color, font_color), font=self.font, spacing=4, align=...

计算每个大学在整体数据集的占比