一蓑烟雨紫洛-CSDN博客

原创随机分类，保持均衡水平Python

10000个样本有4个指标，按照逾期金额分10类，确保每类别逾期金额均衡。以下为10000个样本有4个指标，按照逾期金额分10类的代码逻辑。将10000个样本按照逾期金额排序，#5）按照排序规则赋值1 2 3 4。#4）根据aa 和bb列排序。按照分类的逾期金额求随机数。#3）赋值一列bb为随机数。等距分箱为2500个类别。根据类别和随机数升序排列。#2）等距分箱形成aa列。#1）逾期金额升序排序。

2024-09-09 12:59:48 551

原创数仓面试100题

事实表事实表（ Fact Table）是指存储有事实记录的表，如系统⽇志、销售记录等；事实表的记录在不断地动态增⻓，所以它的体积通常远⼤于其他表。事实表作为数据仓库建模的核⼼，需要根据业务过程来设计，包含了引⽤的维度和业务过程有关的度量。维度表（ Dimension Table）或维表，有时也称查找表（Lookup Table），是与事实表相对应的⼀种表；它保存了维度的属性值，可以跟事实表做关联；相当于将事实表上经常重复出现的属性抽取、规范出来⽤⼀张表进⾏管理。

2024-05-24 15:21:14 2431

原创数据治理----数据治理

数据治理是指通过制定策略、规程和程序，确保数据在整个⽣命周期内保持⾼质量、易于访问和安全性。它涉及到制定数据标准、数据分类、数据质量、数据安全等⽅⾯的政策和流程，旨在确保数据在组织内得到正确使⽤和管理。

2024-05-24 14:05:52 309

原创数据质量-数据治理

①单表数据质量监控，②单表空值检测，③单表重复值检测，④单表值域检测，⑤跨表数据量对⽐等五⼤原则。

2024-05-24 14:01:12 596

原创 13GBDT特征交叉

在风控领域发展过程中，使用最多的方法是逻辑回归，逻辑回归使用了sigmoid变换将函数值映射到[0,1]区间，映射后的函数值就是对一个人违约概率的预估值。逻辑回归同样属于广义线性模型，容易并行化，可以轻松处理上亿条数据，但是学习能力十分有限，需要大量的特征工程来增加模型的学习能力。将连续特征离散化，并对离散化的特征进行one-hot编码，最后对特征进行多阶的特征组合，也是特征衍生的常用手段。不知道连续变量切分点如何选取不知道离散化为多少份最为合理。

2024-05-15 13:55:45 1013

原创 12拒绝推断

风控建模中，幸存者偏差是普遍存在的问题。也就是我们建模用到的数据无法充分反应所有客群的整体分布信息，从而得到错误的总体估计。

2024-05-15 13:51:05 1180

原创 11模型可解释性

SHAP（SHApley Additive exPlanations）是一种用博弈论方法（起源于合作博弈论）来解释机器学习模型输出的方法。SHAP通过计算模型中各个特征的边际贡献来衡量各个特征的影响大小，进而对黑盒模型进行解释。该边际贡献在SHAP中称为Shapley Value，最开始由2012年诺贝尔经济学奖的获得者Lloyd Shapley于1938年提出，用于解决合作博弈论中的分配均衡问题。

2024-05-15 13:46:50 1089

原创 10模型可解释和LIME

内部结构非常复杂，其运作机制就像一个黑盒子一样，难以用人类可以理解的语言去描述模型输出结果也难以被解释，使得其在一些有关生命安全或重要决策领域的应用受到巨大挑战某银行希望通过XGBoost模型，判断客户名单中哪些人更有可能会购买基金产品。经过训练之后，模型的AUC达到了0.85，结果非常理想，营销人员拿着模型预测的名单逐个进行电话营销。结果在几百通电话之后，最终只有一两个客户购买了基金产品，原因是什么？

2024-05-15 13:41:14 921

原创 8评分卡建模整体流程梳理

但是考虑到后续建模过程要对变量进行分箱处理，该操作会使变量的IV变小，变量间的相关性变大，因此此处可以对IV和相关系的阈值限制适当放松，或不做限制。使用逐步回归进行特征筛选，使用线性回归模型，并选择KS作为评价指标 - estimator: 用于拟合的模型，支持’ols’, ‘lr’, ‘lasso’, ‘ridge’第4～6箱合并，最后3箱进行合并。上图中,图中的线没有交叉,故不需要对该特征的分组进行合并,即使有少量交叉也不会对结果造成明显的影响,只有当错位比较严重的情况下才进行调整。

2024-05-15 13:13:36 1236

原创 7集成学习评分卡

梯度提升最强大的特性之一是它适用于各种各样的损失函数。这意味着我们也可以设计自己的、更加适用于某一特定问题的损失函数来处理我们的数据集和任务的特定属性。某些情况下我们可能需要高召回率（更少的假阴性，在医学诊断中）或高精准率（更少的假阳性，例如，在垃圾邮件检测中），而不是高准确率。在许多此类场景中，通常需要自定义损失函数。

2024-05-15 13:03:51 583

原创 6 逻辑回归评分卡

业务逐渐稳定后，人工审核是否会去掉 - 一般算法模型上线后，在高分段和低分段模型表现较好，中间的用户可能需要人工参与审核 - 模型表现越来越好之后，人工审核的需求会逐步降低，但不会去掉。② 前4箱的样本占总人数的20%，捕捉负样本占所有负样本的56.4%，如拒绝分数最低的20%的人，可以捕捉到56.4%的负样本。ROC曲线:描绘的是不同的截断点时，并以FPR和TPR为横纵坐标轴，描述随着截断点的变小，TPR随着FPR的变化。当这个用户非逾期的概率是逾期的概率的2倍时，加50分。

2024-05-15 11:39:35 841

原创 5 特征筛选

使用排除法的方式训练模型，把模型性能下降最少的那个特征去掉，反复上述训练直到达到指定的特征个数、VIF越大说明拟合越好，该特征和其他特征组合共线性越强，就越没有信息量，可以剔除。避免未来信息：使用外部数据的时候，可能出现训练模型的时候效果好，上线之后效果差。如果一个特征是其他一组特征的线性组合，则不会在模型中提供额外的信息，可以去掉。模型中尽可能使用区分度相对较弱的特征，将多个弱特征组合，得到评分卡模型。从几个角度衡量：覆盖度，区分度，相关性，稳定性。匹配上的是共有的数据，匹配不上的外部无法得知其身份。

2024-05-15 11:13:01 887

原创 4 特征构造

分箱（离散化）后，模型会更稳定，如对年龄离散化，20-30为一个区间，不会因为年龄+1就变成一个新的特征。- 其它分箱方法：聚类分箱（k-means), 决策树分箱，等频分箱，等距分箱 - 各种分箱方法对比。单变量分箱（离散化）为N个后，每个变量有单独的权重，相当于为模型引入了非线性，能够提升模型表达能力。分箱（离散化）后可以进行特征交叉，由M+N个变量变为M*N个变量，进一步引入非线性，提升表达能力；上一小结最后的案例为例。(��=��(��/��)) 好用户比例/坏用户比例。

2024-05-15 11:03:02 1027

原创 3 风控建模概述

知道ABC评分卡是什么，有什么区别知道风控建模的流程掌握评分卡模型正负样本定义方法知道如何构建特征，如何评估特征信贷审批业务基本流程四要素认证：银行卡持有人的姓名、身份证号、银行卡号、手机号互联网金融风控体系主要由三大部分组成：用户数据：用户基本信息、用户行为信息、用户授权信息、外部接入信息。数据采集会涉及到埋点和爬虫技术，基本上业内的数据都大同小异。- 免费的运营商数据安卓可爬的手机内部信息（app名称，手机设备信息，部分app内容信息）

2024-05-15 10:52:44 1161

原创 2-风控业务报表

注册表 u_user`id` bigint NOT NULL AUTO_INCREMENT COMMENT '自增主键',`role_type` int NOT NULL DEFAULT '0' COMMENT '角色(-1:普通用户)',`type` int NOT NULL DEFAULT '0' COMMENT '(暂时保留)0：借款用户,1:资金账户用户',`status` int NOT NULL DEFAULT '0' COMMENT '用户状态',

2024-05-15 10:42:58 1117

原创 1金融风控相关业务介绍

信贷业务，就是贷款业务，是商业银行和互联网金融公司最重要的资产业务和主要赢利手段通过放款收回本金和利息，扣除成本后获得利润。贷款平台预测有信贷需求用户的还款情况，然后将本金借贷给还款概率大的用户信贷业务中，使用信用来预支金钱，在小额贷业务中往往没有抵押物，那么贷款方就会承担一定风险（用户不还钱）风控就是对用户的信用风险进行管理与规避，对于预测信用较差的人，不向其放款，即便放款，也会是较小的贷款额度和较高的利率信贷领域有两类风险：信用风险：借款人的的还款能力和还款意愿在贷款后出现问题的风险。

2024-05-15 10:37:44 1175

原创用户留存【摘录】

因为当留存相对平缓时，就能证明产品已找到市场与产品相匹配的用户群体，从而也就证明了产品在市场上所具有的价值。例如，在京东的关键事件是完成订单，在易观方舟的关键事件是创建分析，在微博的关键事件可以是浏览好友的微博首页或是发送有内容的微博。然后，我们来看所有时间拉新的用户在第3天的转化情况，即把所有达到第3天的用户加起来，用第3天的合计情况除以总人数，得到第3天所有用户的留存率。如下表所示，统计后发现3%的用户在1天之内触发两次，20%的用户在7天之内触发两次，在第30天时，已经有81%的用户都触发两次以上。

2024-03-19 10:19:05 1163

原创【NLP12-莎士比亚风格文本生成任务】

了解文本生成任务和相关数据集掌握使用GRU模型实现文本生成任务的过程。

2024-03-18 15:06:06 725

原创【NLP11-迁移学习】

一般情况下预训练模型都是大型模型，具备复杂的网络结构，众多的参数量，以及在足够大的数据集下进行训练而产生的模型。在NLP领域，预训练模型往往是语言模型，因为语言模型的训练是无监督的，可以获得大规模语料，同时语言模型又是许多典型的NLP任务的基础，如机器翻译、文本生成、阅读理解等。一般情况下，微调脚本应该由不同的任务类型开发者自己编写，但是由于目前研究NLP任务类型（分类、提取、生成）以及对应的微调输出结构都是有限的，有些微调方式已经在很多数据集上被验证有效的，因此微调脚本也可以使用已经完成的规范脚本。

2024-03-18 15:03:48 532

原创【NLP10-fasttext工具】

文本分类是将文档（电子邮件、帖子、文本消息、产品评论等）分配给一个或多个类别。当今文本分类的实现多是使用机器学习方法从训练数据中提取分类规则以进行分类，因此构建文本分类器需要带标签的数据。

2024-03-18 15:02:00 447

原创【NLP9-Transformer经典案例】

其中包括的语料有：用于情感分析的SST和IMDB，用于问题分类TREC，用于及其翻译的WMT14，IWSLT,以及用于语言模型任务wikiText-2。语言模型本身的训练目标是预测下一个词，因为它的特征提取部分会抽象很多语言序列之间的关系，这些关系可能同样对其它语言类任务有效果。以一个符合语言规律的序列为输入，模型将利用序列间关系等特征，输出在一个在所有词汇上的概率分布，这样的模型称为语言模型。对文本数据进行处理，比如文本语料加载，文本迭代器构建等。torchtext重要功能。4、构建训练和评估函数。

2024-03-18 15:00:31 946

原创【NLP8-Transformer】

每个头开始从词义层面分割输出的张量，也就是每个头都想获得一组Q,K,V进行注意力机制的计算，但是句子中每个词的表示只获得一部分，也就是只分割了最后一维的词嵌入向量。这就是所谓的多头。将每个头的获得的输入送到注意力机制中，就形成多头注意力机制。在Transformer中前馈全连接层就是具有两层线性层的全连接网络。

2024-03-18 14:57:39 439

原创【NLP7-使用RNN模型构建人名分类器】

每个 txt 文件中含有很多姓氏名，每个姓氏名独占一行，有些语言使用的是 Unicode 码（含有除了26 英文字母以外的其他字符），我们需要将其统一成 ASCII 码。准备训练 RNN 在训练前，我们把求所属语言类别的索引值方法封装成函数category_from_output。该函数输出：语言类别、语言类别索引值。再国际化业务中，用户注册过程中，会根据用户填写名字直接给他分配可能的国家或地区选项，以及该国家或地区的国旗，限制手机号码位数等等。②、对data文件中的数据进行处理，满足训练要求。

2024-03-18 14:14:11 1062

原创【NLP6-使用seq2seq模型架构实现英译法任务】

编码器首先处理中文输入"欢迎来北京"，通过GRU模型获得每个时间步的输出张量，最后将它们拼接成一个中间语义张量C，接着解码器将使用这个中间语义张量c以及每一个时间步的隐层张量，逐个生成对应的翻译语言。什么是teacher_forcing：它是一种用于序列生成任务的训练技巧，在seq2seq架构中，根据循环神经网络，解码器每次应该使用上一步的结果作为输入的一部分，但是训练过程中，一旦上一步的结果是错误的，就会导致这种错误被累积，无法达到训练效果。2.3、将持久化文件中的数据加载到内存，并实例化类Lang。

2024-03-18 14:12:24 1319 1

空空如也

空空如也