自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(114)
  • 收藏
  • 关注

原创 数仓面试100题

事实表事实表( Fact Table)是指存储有事实记录的表,如系统⽇志、销售记录等;事实表的记录在不断地动态增⻓ ,所以它的体积通常远⼤于其他表。事实表作为数据仓库建模的核⼼,需要根据业务过程来设计,包含了引⽤的维度和业务过程有关的度量。维度表( Dimension Table)或维表,有时也称查找表(Lookup Table),是与事实表相对应的⼀种表;它保存了维度的属性值,可以跟事实表做关联;相当于将事实表上经常重复出现的属性抽取、规范出来⽤⼀张表进⾏管理。

2024-05-24 15:21:14 1177

原创 数据治理----数据治理

数据治理是指通过制定策略、规程和程序,确保数据在整个⽣命周期内保持⾼质量、易于访问和安全性。它涉及到制定数据标准、数据分类、数据质量、数据安全等⽅⾯的政策和流程, 旨在确保数据在组织内得到正确使⽤和管理。

2024-05-24 14:05:52 188

原创 数据质量-数据治理

①单表数据质量监控,②单表空值检测,③单表重复值检测,④单表值域检测,⑤跨表数据量对⽐等五⼤原则。

2024-05-24 14:01:12 389

原创 13GBDT特征交叉

在风控领域发展过程中,使用最多的方法是逻辑回归,逻辑回归使用了sigmoid变换将函数值映射到[0,1]区间,映射后的函数值就是对一个人违约概率的预估值。逻辑回归同样属于广义线性模型,容易并行化,可以轻松处理上亿条数据,但是学习能力十分有限,需要大量的特征工程来增加模型的学习能力。将连续特征离散化,并对离散化的特征进行one-hot编码,最后对特征进行多阶的特征组合,也是特征衍生的常用手段。不知道连续变量切分点如何选取不知道离散化为多少份最为合理。

2024-05-15 13:55:45 791

原创 12拒绝推断

风控建模中,幸存者偏差是普遍存在的问题。也就是我们建模用到的数据无法充分反应所有客群的整体分布信息,从而得到错误的总体估计。

2024-05-15 13:51:05 803

原创 11模型可解释性

SHAP(SHApley Additive exPlanations)是一种用博弈论方法(起源于合作博弈论)来解释机器学习模型输出的方法。SHAP通过计算模型中各个特征的边际贡献来衡量各个特征的影响大小,进而对黑盒模型进行解释。该边际贡献在SHAP中称为Shapley Value,最开始由2012年诺贝尔经济学奖的获得者Lloyd Shapley于1938年提出,用于解决合作博弈论中的分配均衡问题。

2024-05-15 13:46:50 890

原创 10模型可解释和LIME

内部结构非常复杂,其运作机制就像一个黑盒子一样,难以用人类可以理解的语言去描述模型输出结果也难以被解释,使得其在一些有关生命安全或重要决策领域的应用受到巨大挑战某银行希望通过XGBoost模型,判断客户名单中哪些人更有可能会购买基金产品。经过训练之后,模型的AUC达到了0.85,结果非常理想,营销人员拿着模型预测的名单逐个进行电话营销。结果在几百通电话之后,最终只有一两个客户购买了基金产品,原因是什么?

2024-05-15 13:41:14 787

原创 8评分卡建模整体流程梳理

但是考虑到后续建模过程要对变量进行分箱处理,该操作会使变量的IV变小,变量间的相关性变大,因此此处可以对IV和相关系的阈值限制适当放松,或不做限制。使用逐步回归进行特征筛选,使用线性回归模型,并选择KS作为评价指标 - estimator: 用于拟合的模型,支持’ols’, ‘lr’, ‘lasso’, ‘ridge’第4~6箱合并,最后3箱进行合并。上图中,图中的线没有交叉,故不需要对该特征的分组进行合并,即使有少量交叉也不会对结果造成明显的影响,只有当错位比较严重的情况下才进行调整。

2024-05-15 13:13:36 986

原创 7集成学习评分卡

梯度提升最强大的特性之一是它适用于各种各样的损失函数。这意味着我们也可以设计自己的、更加适用于某一特定问题的损失函数来处理我们的数据集和任务的特定属性。某些情况下我们可能需要高召回率(更少的假阴性,在医学诊断中)或高精准率(更少的假阳性,例如,在垃圾邮件检测中),而不是高准确率。在许多此类场景中,通常需要自定义损失函数。

2024-05-15 13:03:51 402

原创 6 逻辑回归评分卡

业务逐渐稳定后,人工审核是否会去掉 - 一般算法模型上线后,在高分段和低分段模型表现较好,中间的用户可能需要人工参与审核 - 模型表现越来越好之后,人工审核的需求会逐步降低,但不会去掉。② 前4箱的样本占总人数的20%,捕捉负样本占所有负样本的56.4%,如拒绝分数最低的20%的人,可以捕捉到56.4%的负样本。ROC曲线:描绘的是不同的截断点时,并以FPR和TPR为横纵坐标轴,描述随着截断点的变小,TPR随着FPR的变化。当这个用户非逾期的概率是逾期的概率的2倍时,加50分。

2024-05-15 11:39:35 640

原创 5 特征筛选

使用排除法的方式训练模型,把模型性能下降最少的那个特征去掉,反复上述训练直到达到指定的特征个数、VIF越大说明拟合越好,该特征和其他特征组合共线性越强,就越没有信息量,可以剔除。避免未来信息:使用外部数据的时候,可能出现训练模型的时候效果好,上线之后效果差。如果一个特征是其他一组特征的线性组合,则不会在模型中提供额外的信息,可以去掉。模型中尽可能使用区分度相对较弱的特征,将多个弱特征组合,得到评分卡模型。从几个角度衡量:覆盖度,区分度,相关性,稳定性。匹配上的是共有的数据,匹配不上的外部无法得知其身份。

2024-05-15 11:13:01 716

原创 4 特征构造

分箱(离散化)后,模型会更稳定,如对年龄离散化,20-30为一个区间,不会因为年龄+1就变成一个新的特征。- 其它分箱方法:聚类分箱(k-means), 决策树分箱,等频分箱,等距分箱 - 各种分箱方法对比。单变量分箱(离散化)为N个后,每个变量有单独的权重,相当于为模型引入了非线性,能够提升模型表达能力。分箱(离散化)后可以进行特征交叉,由M+N个变量变为M*N个变量,进一步引入非线性,提升表达能力;上一小结最后的案例为例。(����=���(������/�����)) 好用户比例/坏用户比例。

2024-05-15 11:03:02 925

原创 3 风控建模概述

知道ABC评分卡是什么,有什么区别知道风控建模的流程掌握评分卡模型正负样本定义方法知道如何构建特征,如何评估特征信贷审批业务基本流程四要素认证:银行卡持有人的姓名、身份证号、银行卡号、手机号互联网金融风控体系主要由三大部分组成:用户数据:用户基本信息、用户行为信息、用户授权信息、外部接入信息。数据采集会涉及到埋点和爬虫技术,基本上业内的数据都大同小异。- 免费的运营商数据安卓可爬的手机内部信息(app名称,手机设备信息,部分app内容信息)

2024-05-15 10:52:44 915

原创 2-风控业务报表

注册表 u_user`id` bigint NOT NULL AUTO_INCREMENT COMMENT '自增主键',`role_type` int NOT NULL DEFAULT '0' COMMENT '角色(-1:普通用户)',`type` int NOT NULL DEFAULT '0' COMMENT '(暂时保留)0:借款用户,1:资金账户用户',`status` int NOT NULL DEFAULT '0' COMMENT '用户状态',

2024-05-15 10:42:58 887

原创 1金融风控相关业务介绍

信贷业务,就是贷款业务,是商业银行和互联网金融公司最重要的资产业务和主要赢利手段通过放款收回本金和利息,扣除成本后获得利润。贷款平台预测有信贷需求用户的还款情况,然后将本金借贷给还款概率大的用户信贷业务中,使用信用来预支金钱,在小额贷业务中往往没有抵押物,那么贷款方就会承担一定风险(用户不还钱)风控就是对用户的信用风险进行管理与规避,对于预测信用较差的人,不向其放款,即便放款,也会是较小的贷款额度和较高的利率信贷领域有两类风险:信用风险:借款人的的还款能力和还款意愿在贷款后出现问题的风险。

2024-05-15 10:37:44 988

原创 用户留存【摘录】

因为当留存相对平缓时,就能证明产品已找到市场与产品相匹配的用户群体,从而也就证明了产品在市场上所具有的价值。例如,在京东的关键事件是完成订单,在易观方舟的关键事件是创建分析,在微博的关键事件可以是浏览好友的微博首页或是发送有内容的微博。然后,我们来看所有时间拉新的用户在第3天的转化情况,即把所有达到第3天的用户加起来,用第3天的合计情况除以总人数,得到第3天所有用户的留存率。如下表所示,统计后发现3%的用户在1天之内触发两次,20%的用户在7天之内触发两次,在第30天时,已经有81%的用户都触发两次以上。

2024-03-19 10:19:05 906

原创 【NLP12-莎士比亚风格文本生成任务】

了解文本生成任务和相关数据集掌握使用GRU模型实现文本生成任务的过程。

2024-03-18 15:06:06 471

原创 【NLP11-迁移学习】

一般情况下预训练模型都是大型模型,具备复杂的网络结构,众多的参数量,以及在足够大的数据集下进行训练而产生的模型。在NLP领域,预训练模型往往是语言模型,因为语言模型的训练是无监督的,可以获得大规模语料,同时语言模型又是许多典型的NLP任务的基础,如机器翻译、文本生成、阅读理解等。一般情况下,微调脚本应该由不同的任务类型开发者自己编写,但是由于目前研究NLP任务类型(分类、提取、生成)以及对应的微调输出结构都是有限的,有些微调方式已经在很多数据集上被验证有效的,因此微调脚本也可以使用已经完成的规范脚本。

2024-03-18 15:03:48 434

原创 【NLP10-fasttext工具】

文本分类是将文档(电子邮件、帖子、文本消息、产品评论等)分配给一个或多个类别。当今文本分类的实现多是使用机器学习方法从训练数据中提取分类规则以进行分类,因此构建文本分类器需要带标签的数据。

2024-03-18 15:02:00 380

原创 【NLP9-Transformer经典案例】

其中包括的语料有:用于情感分析的SST和IMDB,用于问题分类TREC,用于及其翻译的WMT14,IWSLT,以及用于语言模型任务wikiText-2。语言模型本身的训练目标是预测下一个词,因为它的特征提取部分会抽象很多语言序列之间的关系,这些关系可能同样对其它语言类任务有效果。以一个符合语言规律的序列为输入,模型将利用序列间关系等特征,输出在一个在所有词汇上的概率分布,这样的模型称为语言模型。对文本数据进行处理,比如文本语料加载,文本迭代器构建等。torchtext重要功能。4、构建训练和评估函数。

2024-03-18 15:00:31 495

原创 【NLP8-Transformer】

每个头开始从词义层面分割输出的张量,也就是每个头都想获得一组Q,K,V进行注意力机制的计算,但是句子中每个词的表示只获得一部分,也就是只分割了最后一维的词嵌入向量。这就是所谓的多头。将每个头的获得的输入送到注意力机制中,就形成多头注意力机制。在Transformer中前馈全连接层就是具有两层线性层的全连接网络。

2024-03-18 14:57:39 348

原创 【NLP7-使用RNN模型构建人名分类器】

每个 txt 文件中含有很多姓氏名,每个姓氏名独占一行,有些语言使用的是 Unicode 码(含有除了26 英文字母以外的其他字符),我们需要将其统一成 ASCII 码。准备训练 RNN 在训练前,我们把求所属语言类别的索引值方法封装成函数category_from_output。该函数输出:语言类别、语言类别索引值。再国际化业务中,用户注册过程中,会根据用户填写名字直接给他分配可能的国家或地区选项,以及该国家或地区的国旗,限制手机号码位数等等。②、对data文件中的数据进行处理,满足训练要求。

2024-03-18 14:14:11 863

原创 【NLP6-使用seq2seq模型架构实现英译法任务】

编码器首先处理中文输入"欢迎来北京",通过GRU模型获得每个时间步的输出张量,最后将它们拼接成一个中间语义张量C,接着解码器将使用这个中间语义张量c以及每一个时间步的隐层张量,逐个生成对应的翻译语言。什么是teacher_forcing:它是一种用于序列生成任务的训练技巧,在seq2seq架构中,根据循环神经网络,解码器每次应该使用上一步的结果作为输入的一部分,但是训练过程中,一旦上一步的结果是错误的,就会导致这种错误被累积,无法达到训练效果。2.3、将持久化文件中的数据加载到内存,并实例化类Lang。

2024-03-18 14:12:24 1133 1

原创 【NLP5-RNN模型、LSTM模型和GRU模型】

RNN(Recurrent Neural Network)中文称为循环神经网络,它一般以序列数据为输入,通过网络内部的结构设计有效捕捉序列之间的关系特征,一般也是以序列形式进行输出RNN的循环机制使模型隐层上一时间步产生的结果,能够作为当下时间步输入的一部分(当下时间步的输入除了正常的输入外还包括上一步的隐层输出)对当下时间步的输出产生影响根据反向传播算法和链式法则,梯度的计算可以简化为以下公式Dnσz1w1∗σz2w2∗σznwnDn​σz1​w1。

2024-03-18 13:30:44 1345

原创 【NLP04-经典序列模型】

序列数据中每个单元包含的隐形信息。这些隐形信息之间也存在一定关联。

2024-03-18 13:20:24 319

原创 【NLP03-新闻主题分类任务】

以一段新闻报道中的文本描述内容为输入,使用模型帮助我们判断它最优可能属于哪一种类型的新闻,这是典型的文本分类问题,这里假定每种类型是互斥的,即文本描述有且只有一种类型。

2024-03-18 13:19:29 559

原创 【NLP02-文本处理的基本方法】

讲一段文本使用张量进行表示,其中一般将词汇表示成向量,称作词向量,再由各个词向量按顺序组成矩阵形成文本表示。是一种流行的将词汇表示成向量的无监督训练方法,该过程将构建神经网络模型,将网络参数作为词汇的向量表示,它包含CBOW和skipgram两种训练模式。CBOM(continuous bag of words)模式:给定一段用于训练的文本语料,再选定某段长度(窗口)作为研究对象,使用上下文词汇预测目标词汇skipgram模式。

2024-03-18 13:16:04 1046

原创 【NLP1-文本预处理】

文本语料在输送给模型之前一般需要一系列的预处理工作,才能符合模型输入的要求。如:将文本转化成模型需要的张量,规范张量的尺寸等。而且科学的文本预处理环节还将有效知道模型超参数的选择,提升模型的评估指标。

2024-03-18 13:11:25 358

原创 python数据筛选新增一列

2、新增一列为 aa:对实际逾期天数>15 进行打标满足则 1,否则为 0.3、并将数值型特征名称与字符串特征名称分别储存 在两个列表中。1、筛选出stage=1的样本。

2024-03-18 12:05:25 504

原创 【大数据环境安装】虚拟机安装操作

结束后 , 点击重启, 然后进入系统, 到此, 虚拟机搭建工作结束。正在校验, 可直接选择esc退出, 或者等待一会也是OK的。添加linux的iso镜像文件。开启虚拟机, 进行安装。

2023-09-12 11:17:56 304

原创 【大数据环境配置】01-安装VMware虚拟机

1: 运行“VMware_workstation_full_12.5.2.exe”(或者其他版本)9: 自己在百度搜索一个vmware12密匙,粘贴复制,然后点击输入。5: 用户体验设置,建议全部取消勾选,然后点击下一步。4: 选择VMware安装位置,然后点击下一步。6: 根据个人喜好选择,然后点击下一步。3: 同意许可,然后继续点击下一步。8: 等待安装完成,然后点击许可证。2:引导页面,直接点击下一步。10: 安装完成。7: 点击安装。

2023-09-12 09:51:56 154

原创 大数据开发---OLTP和OLAP的关系【1】

文章目录1、OLTP和OLAP的定义2、OLTP和OLAP的关系3、OLTP和OLAP的区别4、大数据时代对数据存储的挑战1、OLTP和OLAP的定义OLAP系统:联机分析处理系统:Data Warehouse数据仓库 (On-Line Analytical Processing)OLTP系统:联机事务处理系统 (On-line transaction processing)2、OLTP和OLAP的关系3、OLTP和OLAP的区别4、大数据时代对数据存储的挑战1、高并发读写需求2、海量

2022-05-26 09:48:40 501

原创 标签平滑案例

from pyitcast.transformer_utils import LabelSmoothingcrit = LabelSmoothing(size =5 ,padding_idx=0,smoothing=0.5)#size =5 ,目标词汇总数# padding_idx=0,要将那些tensor中的数字替换为0,一般padding_idx=0表示不替换# smoothing=0.5,标签的平滑程度,若标签值为1,则平滑后的值域变成[1-smoothing,1+smooting]#假

2022-04-06 17:04:57 355 2

原创 view函数--python

view()的作用相当于numpy中的reshape,重新定义矩阵的形状。import torchx=torch.randn(4,4)print(x)tensor([[-1.2099, 1.0978, 1.0094, 1.3966],[ 0.2889, -0.5096, 1.8754, 0.7503],[ 1.8894, 1.7621, -1.3559, 0.5547],[ 0.4342, -0.3919, 0.0501, 0.0693]])y=x.view(16)pr

2022-03-30 10:56:18 12308

原创 np.triu的使用方法

np.triu([[1,2,3],[4,5,6],[7,8,9],[10,11,12]],k=-1)array([[ 1, 2, 3],[ 4, 5, 6],[ 0, 8, 9],[ 0, 0, 12]])np.triu([[1,2,3],[4,5,6],[7,8,9],[10,11,12]],k=0)array([[1, 2, 3],[0, 5, 6],[0, 0, 9],[0, 0, 0]])np.triu([[1,2,3],[4,5,6],[7,8,9],[10,

2022-03-28 14:08:19 3797

原创 朴素贝叶斯算法---学习笔记整理

什么是朴素贝叶斯分类方法:朴素贝叶斯是基于贝叶斯定理与特征条件独立性假设的分类方法。朴素:特征与特征之间是相互独立朴素贝叶斯算法:朴素 + 贝叶斯应用场景:文本分类、单词作为特征为防止计算后的值为0 引用拉普拉斯平滑系数优点 对缺失数据不太敏感,算法也比较简单,常用于文本分类。 分类准确度高,速度快缺点 由于使用了样本属性独立性的假设,所以如果特征属性有关联时其效果不好案例:20类新闻分类 1)获取数据 2)划分数据集

2022-03-21 17:32:19 1535

原创 lightGBM----学习笔记整理

1、前序1.1、lightGBM演进过程c3.0(信息增益,信息增益率)—> CART(Gini) —> 提升树(AdaBoost) —> GBDT —> XGBoost —> lightGBM1.2、AdaBoost算法AdaBoost是一种提升树的方法,和三个臭皮匠,赛过诸葛亮的道理一样。AdaBoost两个问题1、如何改变训练数据的权重或概率分布​ 提高前一轮被弱分类器错误分类的样本权重,降低前一轮被分对的权重2、如何将弱分类器组合成一个强分类器,

2022-03-21 16:17:21 1609

原创 SVM支持向量机-----学习笔记整理

SVM支持向量机1、定义SVM全称是support vector machine(支持向量机),即寻找一个超平面使样本分成两类,并且间隔最大SVM能够执行线性或非线性分类、回归、甚至是异常值检测任务。SVM特别适用于中小型复杂数据集的分类2、超平面最大间隔左图虚线表现非常不好。实线边界与实例过于接近,导致在面对新实例时,可能表现不会太好。右图中的实线代表SVM分类器的决策边界,不仅分离了两个类别,且尽可能远离最近的训练实例3、硬间隔和软间隔3.1、硬间隔分类上图1左边的表现缺点:1、

2022-03-21 11:07:48 1983

原创 HMM模型-----学习笔记整理

HMM模型了解什么是马尔可夫链知道什么是HMM模型知道前向后向算法评估管擦序列概率知道维特比算法解码隐藏状态序列了解鲍姆-韦尔奇算法知道HMM模型API的使用1、马尔可夫链1.1、简介马尔可夫链几位状态空间中从一个状态到另一个状态转换的随机过程该过程要求具备"无记忆"的特征下一状态的概率分布只能由当前状态决定,在时间序列中它前面的事件均与之无关在马尔可夫链的每一步,系统根据概率分布,可从一个状态变到另一个状态,也可以保持当前状态。状态的改变叫做转移,与不同的状态改变相关的概率叫做转

2022-03-18 16:49:52 4043

原创 EM算法---学习笔记整理

EM算法1、定义EM算法也称期望最大化算法(Expection-Maxinum)算法它是一个算法基础,是很多机器学习领域算法的基础,比如隐士马尔可夫算法(HMM)等EM算法是一种迭代优化策略,计算方式中每一次迭代分为2步1、期望步(E步)2、极大步(M步)所以算法被称为EM算法2、EM算法计算流程首先根据已经给出的观测数据,估计出模型参数的值然后再根据上一步估计出的参数估计缺失数据的值,再根据估计出的缺失数据加上之前已经观测的数据重新再对参数进行估计然后反复迭代直至最后收敛,迭代结束

2022-03-18 15:49:09 608

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除