蕊在花中羞涩-CSDN博客

原创 L1范数和L2范数，哪个更容易产生稀疏解

这个值通常在红色曲线和蓝色曲线的相切处(如果不在相切处，那么至少有两点值相同，与极值的定义矛盾)，而L1范数曲线更容易与蓝色曲线在顶点处相交，这就导致除了相切处的维度不为零，其他维度的权重均为0，从而容易产生模型的稀疏解。如图 2-19(a)的红色圆形，L1 范数|w1|+|w2|的曲线如图 2-19(b)红色菱形。正则化项的形式当然不是最重要的,最重要的是要理解L1范数和L2范数的特点，为什么在LS-PLM 模型中加入L1范数能够增加模型的稀疏性呢?L2范数|w1|+|w2|的曲线。

2024-09-18 21:01:08 555

原创【详细版】LS-PLM 的模型结构

在逻辑回归的基础上加入聚类的思想，其灵感来自对广告推荐领域样本特点的观察。在实践中，阿里巴巴给出的m的经验值为12。本质上，LS-PLM可以看作对逻辑回归的自然推广，它在逻辑回归的基础上采用分而治之的思路，先对样本进行分片，再在样本分片中应用逻辑回归进行CTR预估。(1)端到端的非线性学习能力:LS-PLM 具有样本分片的能力，因此能够挖掘出数据中蕴藏的非线性模式，省去了大量的人工样本处理和特征工程的过程使 LS-PLM 算法可以端到端地完成训练，便于用一个全局模型对不同应用领域业务场景进行统一建模。

2024-09-18 20:53:18 528

原创【详细版】GBDT+LR 的模型结构

GBDT是由多棵回归树组成的树林，后一棵树以前面树林的结果与真实结果的残差为拟合目标。每棵树生成的过程是一棵标准的回归树生成过程，因此回归树中每个节点的分裂是一个自然的特征选择的过程，而多层节点的结构则对特征进行了有效的自动组合,也就非常高效地解决了过去棘手的特征选择和特征组合的问题。GBDT+LR 组合模型的提出，意味着特征工程可以完全交由一个独立的模型来完成，模型的输入可以是原始的特征向量，不必在特征工程上投入过多的人工筛选和模型设计的精力，实现真正的端到端(EndtoEnd)训练。

2024-09-18 20:40:55 540

原创【数据分析】金融通用场景下的数据基础分析方法

2024-09-18 20:32:07 206

原创【数据分析】金融通用场景下的数据基础分析方法

2024-09-02 21:25:09 183

原创【风控策略】风控模型评估指标

当然了，对于单一评分卡模型的话，Gini的接受浮动就比较大了，比如某一特定场景开发出的申请评分卡，因为IV高于0.1的变量本身就很少了，这个时候的Gini标准就不再需要采用通识标准了。一般的，一个诊断方法的AUC在(0.5,0.7]时说明其有较低的准确性，AUC在(0.7，0.9]是就说起有一定的准确性，AUC的值大于0.9时就有较高的准确性。在金融风控领域中，常用于衡量模型对正负样本的区分度。通常来说，AUC的值位于[0.5,1]上，在AUC>0.5的情况下，AUC的值越接近1，就说明其诊断的效果越好。

2024-09-02 21:18:55 2521

原创【风控策略开发】反欺诈Louvain算法的Python代码

Louvain算法是一种基于无向图（在社交网络中，将边没有方向的图称为无向图，边有方向的图称为有向图）的“社区”发现算法，其基本思想是先将每一个节点作为一个独立的社区，再分别计算各个节点加入其他社区后的模块度（Modularity）增量，从中选出模块度最高的一个邻居节点，合并为一个社区，待所有节点所属的社区不再变化后，将合并后的社区看成一个新的节点，重复上述过程，直到模块度不再增大。选取的节点及确定的节点之间的关系决定了要构建的网络结构，若构建的网络不合理，则最终构建的模型效果也不会很好。

2024-08-13 20:19:51 1765 2

原创【风控策略开发】反欺诈之基于社交网络识别欺诈团伙

需要强调的是，在反欺诈过程中，识别和拦截欺诈团伙往往是反欺诈工作的重中之重，因为欺诈团伙性质非常恶劣，且一旦欺诈成功，往往会给金融机构带来难以估量的损失，所以开发有效的识别团伙欺诈的反欺诈模型显得尤为重要。在风控过程中，主要通过反欺诈策略识别和拦截欺诈。2）构建针对欺诈客户、欺诈设备、欺诈电话、欺诈IP地址、欺诈GPS等的欺诈黑名单库，在授信申请、用信申请等流程中拦截欺诈客户的申请。在反欺诈过程中，反欺诈模型是精准识别欺诈的利器，在反欺诈模型开发完成后，主要由反欺诈策略利用反欺诈模型结果精准拦截欺诈。

2024-08-13 20:06:02 1414

原创【风控策略】策略和模型的区别与联系

在整个风控过程中，基于不同的风控场景，需要设计不同的风控策略，常见的有授信审批策略、定额定价策略、调额调价策略、催收策略等，但是，无论是什么类型的策略，策略的全生命周期管理都是一样的。风控策略是指策略开发人员基于风控政策、业务场景、风控抓手，针对目标客群，通过一系列规则的设计、组合和应用，对客户进行筛选、分类、评估、处置，在尽可能实现业务增长的前提下控制风险、平衡损失、提升效率，最终达到利润最大化的目的。在项目冷启动阶段，往往只有策略而没有模型，随着项目的开展和数据的积累，才会逐步进行模型的开发和迭代。

2024-08-13 19:55:53 1463

原创【ETL和数据模型】收益账单

数据抽取指的是从不同的网络、不同的操作平台、不同的数据库和数据格式、不同的应用中抽取数据的过程。ETL是数据抽取、转换和装载(Extract，Transformation，Loading)的英文简称，是数据仓库获取高质量数据的关键环节，是对分散在各业务系统中的现有数据进行提取、转换清洗和加载的过程，使这些数据成为商业智能系统需要的有用数据。将这些相互关联的分布式异构数据源集成在一起，能够让上层用户无视不同系统的数据差异，透明的方式访问这些数据，就是数据集成所要解决的问题。收益账单相关的关键指标。

2024-07-18 21:11:13 439

原创对部分用户采取了曝光优先策略，如何判断CTR上涨是该策略导致？

我们首先要确定的是，A和B变化了多少，对C变化的贡献度是啥（具体拆解过程可以看第2题《快手：视频的卡顿率从5%上涨到5.5%，如何分析该问题？》，里面有具体的讲解）。只要题目中出现指标的上涨or下降，首要想到的都是对于该指标的拆解。方向2：没有进行AB实验，想要时候评估效果，那题目就变成了「基础的公式拆解，除法、乘法、加法指标如何拆。方向1：事先以AB的方式来验证该场景，那题目就变成了「那我们就可以对过程进行补全，补全的方向有2个。仅拆解还不够，无法归因到题目预设策略。事前的AB，事后的测算，具体。

2024-07-18 20:25:50 219

原创数据资产盘点-资产目录

数据资产目录是数据管理层面的输出，如果需要进一步将数据资产在应用系统或数据平台管理落地，再结合数据结构、表结构、数据存储的物理层级，形成数据字典。数据资产目录是数据架构的基础，它列出了企业所有的数据资产，包括数据的来源、类型、格式、用途等。能管控，企业内部数据肯定是能管控的，还包括能进行管控的外部数据，比如第三方数据、上下游企业的相关的数据、市场数据。数据资产盘点的方法和步骤，主要归纳为6个阶段：构建数据标准、数据发现、数据定义、分类分级、明确归属、数据资产目录。内部数据：企业自身生产的数据，如销售记录。

2024-07-18 20:17:55 1109

原创基于AI大模型的数据治理

大模型是指具有数千万甚至数亿参数的深度学习模型。近年来，随着计算机技术和大数据的快速发展，深度学习在各个领域取得了显著的成果，如自然语言处理，图片生成，工业数字化等。为了提高模型的性能，研究者们不断尝试增加模型的参数数量，从而诞生了大模型这一概念。本文讨论的大模型将以平时指向比较多的大语言模型为例来进行相关介绍。大模型的原理是基于深度学习，它利用大量的数据和计算资源来训练具有大量参数的神经网络模型。通过不断地调整模型参数，使得模型能够在各种任务中取得最佳表现。

2024-07-18 20:10:01 3487

原创【风控策略开发】单维度策略开发

2024-07-13 18:10:43 192

转载 ETL优化：数据库sql常见优化方法

7）尽量避免左右模糊查询，这样会导致索引失效，进而全表查询，如：select id from person_info where name like ‘%abc%’，可以使用右侧模糊查询，这样是可以索引查找的，如：select id from person_info where name like ‘abc%’；10）在使用索引字段作为条件时，如果该索引是复合索引，那么必须使用到该索引中的第一个字段作为条件时才能保证系统使用该索引，否则该索引将不会被使用，并且应尽可能的让字段顺序与索引顺序相一致。

2024-06-22 07:33:34 287

原创金控风控：Python实现基于数据技巧的拒绝推断

在对精度较为敏感的风控系统中，硬截断法显然是不合理的。因此在实际项目中，通常使用多个差异化较大的模型进行交叉筛选，将多模型评分均较低的样本作为负样本。一种常见的思路是，直接使用KGB模型在拒绝样本上做预测，并将低分样本（如分数最低的20%样本）认为是负样本，带入模型进行估计，其余拒绝样本全部视为灰色样本，不予考虑。利用KGB模型进行打分，按照逾期概率降序排列，选择截断点（cut-off）进行截断后，仅将截断点以下的蓝色部分作为负样本带入模型进行学习，从而修正模型的偏差。根据KGB数据训练KGB模型。

2024-06-21 21:57:29 741

原创金融风控之基金及其收益账单相关常识

同时，公募基金由专业的基金经理进行运作，他们拥有丰富的投资经验和专业的投资技能，能够为投资者提供更为精准的投资策略。债券型基金的投资目标是实现相对稳定的收益，适合于不愿承担太多风险、寻求当期稳定收益的投资者。，顾名思义，是主要投资于股票市场的基金类型。这类基金在投资组合中，股票投资的比例占据了相当重要的部分，通常股票投资的比例不低于基金资产总值的60%。指数型基金的投资目标是获取和大盘同步的获利，其投资策略是分散投资于目标指数的成份股，力求股票组合的收益率拟合该目标指数所代表的资本市场的平均收益率。

2024-06-21 21:36:21 648

原创智能风控：信用评分卡模型中WOE和IV的含义及计算

目录一、IV 的用途二、对 IV 的直观理解三、WOE 的计算四、IV 的计算五、用实例介绍 IV 的计算和使用计算 WOE 和 IVIV 值的比较和变量预测能力的排序关于 IV 和 WOE 的进一步思考为什么用 IV 而不是直接用 WOEIV 的极端情况以及处理方式

2024-06-15 18:12:19 910

原创 LDM-PDM-SDM三个名词讲清数据模型设计

LDM Logical Data Model 逻辑数据模型。PDM Physical Data Model 物理数据模型。SDM Source Data Model 映射关系模型。

2024-06-13 21:11:58 1900

原创数据模型设计及ETL开发的全流程

目录1.需求承接 2.需求分析3.需求评审4.模型设计5.模型评审6.代码开发7.单元测试8.代码评审9.测试报告审核10.业务测试11.投产资料提交与测试12.预投产基线13.投产上线

2024-06-13 21:06:56 338

原创智能风控：风控应用之定价

在金融领域，从大数据征信、大数据风控已经引起人们关注，但在具体大数据的处理、运算、加工、应用方面，目前还处于探索阶段。由于大数据的维度之多和噪音之繁，以及手握用户大数据的行业巨头尚未开放相关数据渠道，使得在大数据在实际应用场景中尚未发挥能效。目前，在金融领域的个人信贷业务中，例如各大银行的消费信贷类产品，通常会根据个人信用和资产情况而制定不同借款额度，每个个人的信用值、还款能力、违约风险都是不一样的，对于优质借款人和非优质借款人都使用差别不大的借款利率显然不合理。

2024-06-12 23:01:59 1594

原创智能风控：风控应用之额度

一般根据客户的贷后行为表现以及还款情况，做出额度调整的策略，以求得更大的收益，针对循环贷产品，通常会根据用户行为评分B卡的结果和额度使用率做额度调整策略，这里的行为评分指的近一年用户还款记录及行为表现来构建的，不会参与决策，只会基于行为评分做出相对应的策略调整，包括调整额度，改变营销手段等等，如果某用户的额度使用率很低，即使信用状况再好，调额也无法带来盈利空间，故而对于额度使用率低的用户，通常都会采用降低或者保持的调整策略。常用数据为：信贷数据可以是：银联数据，互联网行为数据，舆情数据等。

2024-06-12 22:37:42 1736

原创智能风控：贷前审批策略

由于定价模型受客群性质、市场竞争因素和客户关系因素等影响，通过分析客户信用等级、在还款期限内的转移概率、计算预期损失及非预期损失，计算还款期限内的收益，最终实现差异化定价。额度下限信用资质：申请评分、信用历史等，通过对申请评分进行评分等级判断，高申请评分对应低风险等级，额度调整系数较高。授信完成用户提款时会触发用信策略集，提款间隔较长时需重新核查用户资质，一般用信策略比授信要宽松一些，整体策略集和准入策略集相似。收入负债：即用户的偿债能力，客户收入、征信报告借贷情况等。通过征信报告中房贷的还款数据。

2024-06-12 22:23:02 644

转载智能风控：贷前策略的三个阶段

在贷前策略搭建初期上线多少规则比较好？是不是一次上线越多规则越好？既怕上多了无效策略导致上线时间的延后，错失业务进入市场的最佳良机，也怕上线规则漏过一些坏人，导致前期的风险指标难以交代。到底应该如何控制这个平衡？其实，一般在业务上线初期，规则越少越好，最好要有一个MVP版本，且一定要能支持快速迭代。

2024-06-12 22:16:35 1289

原创智能风控：贷前策略规则应用

就是规则集作为整体的最终命中率，它是由内部规则共同作用后得到的一个综合结果。但是综合命中率一般不等于内部每个规则命中率之和，因为内部规则大概率是会有交叉命中情况的，也就是同时命中的情况，一般来说坏客户更容易触发多条规则，也就是同时命中多条。是对规则集内部规则覆盖情况的统计，如果一个规则的命中可以完全被其他规则覆盖，那么该规则在规则集中就没有存在的价值了。也是针对规则集整体而言的，同样的内部单一规则的坏账率之和也不等于整体坏账率，计算逻辑为:1)根据单一规则命中统计规则集命中情况，任何一条命中即规则集命中;

2024-06-12 21:52:45 511

原创智能风控：概论《拥抱大模型》

大模型相对传统模型具有一定的技术优势，以客户画像领域为例，传统模型是一系列的不同算法的小模型，例如以统计算法计算九资、以网络图谱计算客户关系、以树模型计算客户偏好，其数据结果均为固定化的评级评分等，但是大模型则是通用算法来感知描述上述画像，并且能够进一步感知风险浓度、欺诈态势等。目前看，大模型在金融行业的应用主要是，依托大模型人机交互能力的客服领域的应用，依托大模型生成能力的办公与代码领域的应用，但这些并不是金融机构的核心领域。第三层级就是将数据信息与模型能力嵌入到大模型中，实现能力的共享与迁移。

2024-06-12 21:37:34 947

原创机器学习算法：Adaboost算法

但是该算法在实现过程中为取得更高的检测精度则需要较大的训练样本集，在每次迭代过程中，训练一个弱分类器则对应该样本集中的每一个样本，每个样本具有很多特征，因此从庞大的特征中训练得到最优弱分类器的计算量增大。在选择具有最小误差的弱分类器之后，对每个样本的权值进行更新，增大错误分类的样本对应的权值，相对地减小被正确分类的样本权重。该算法的核心思想是通过对样本的权重进行调整，使得每次迭代中分类错误的样本在后续的分类中受到更多的关注，从而使得每个弱分类器都能专注于之前被错误分类的样本。

2024-06-12 21:25:43 443

原创机器学习算法：K均值算法

k均值聚类算法（k-means clustering algorithm）是一种迭代求解的聚类分析算法，其步骤是，预将数据分为K组，则随机选取K个对象作为初始的聚类中心，然后计算每个对象与各个种子聚类中心之间的距离，把每个对象分配给距离它最近的聚类中心。K均值聚类算法是一种广泛使用的聚类分析方法，其基本原理是将数据集划分为K个簇，每个簇由其质心（即簇中所有点的中心）描述。该算法通过迭代优化过程，将数据集中的每个点分配到最近的质心所形成的簇中，并更新每个簇的质心，直到质心不再发生变化或达到预设的终止条件。

2024-06-12 21:19:21 600

原创机器学习算法：K最近邻算法

K最近邻(KNN，K-NearestNeighbor)分类算法是指数据挖掘分类技术中最简单的方法之一。所谓K最近邻，就是K个最近的邻居的意思，说的是每个样本都可以用它最接近的K个邻居来代表。KNN算法的核心思想是如果一个样本在特征空间中的K个最相邻的样本中的大多数属于某一个类别，则该样本也属于这个类别，并具有这个类别上样本的特性。该方法在确定分类决策上只依据最邻近的一个或者几个样本的类别来决定待分样本所属的类别。KNN方法在类别决策时，只与极少量的相邻样本有关。

2024-06-12 21:14:55 718

原创机器学习算法：朴素贝叶斯

和决策树模型相比，朴素贝叶斯分类器发源于古典数学理论，有着坚实的数学基础，以及稳定的分类效率。虽然这个简化方式在一定程度上降低了贝叶斯分类算法的分类效果，但是在实际的应用场景中，极大地简化了贝叶斯方法的复杂性。朴素贝叶斯算法假设了数据集属性之间是相互独立的，因此算法的逻辑性十分简单，并且算法较为稳定，当数据呈现不同的特点时，朴素贝叶斯的分类性能不会有太大的差异。数据集属性的独立性在很多情况下是很难满足的，因为数据集的属性之间往往都存在着相互关联，如果在分类过程中出现这种问题，会导致分类的效果大大降低。

2024-06-12 21:00:15 381

原创机器学习算法：SVM

在使用核方法的非线性学习中，SVM的稳健性和稀疏性在确保了可靠求解结果的同时降低了核矩阵的计算量和内存开销。与其它线性分类器的关系：SVM是一个广义线性分类器，通过在SVM的算法框架下修改损失函数和优化问题可以得到其它类型的线性分类器，例如将SVM的损失函数替换为logistic损失函数就得到了接近于logistic回归的优化问题。从分类的准确性而言，多核SVM具有更高的灵活性，在总体上也优于使用其核函数族中某个单核计算的标准SVM，但非线性和依赖于样本的核函数族构建方法不总是更优的。

2024-06-12 20:55:02 451

原创机器学习算法：逻辑回归

它们的模型形式基本上相同，都具有 w‘x+b，其中w和b是待求参数，其区别在于他们的因变量不同，多重线性回归直接将w‘x+b作为因变量，即y =w‘x+b，而logistic回归则通过函数L将w‘x+b对应一个隐状态p，p =L(w‘x+b),然后根据p 与1-p的大小决定因变量的值。在逻辑回归中，这是最常见的使用方法，更概括地说，它是二元分类最常见的分类器之一。logistic回归的因变量可以是二分类的，也可以是多分类的，但是二分类的更为常用，也更加容易解释，多类可以使用softmax方法进行处理。

2024-06-12 20:45:52 356

原创机器学习算法：随机森林算法

在机器学习中，随机森林是一个包含多个决策树的分类器，并且其输出的类别是由个别树输出的类别的众数而定。Leo Breiman和Adele Cutler发展出推论出随机森林的算法。而 "Random Forests" 是他们的商标。这个术语是1995年由贝尔实验室的Tin Kam Ho所提出的随机决策森林（random decision forests）而来的。

2024-06-12 20:39:10 893

原创机器学习算法：决策树

决策树（Decision Tree）是在已知各种情况发生概率的基础上，通过构成决策树来求取净现值的期望值大于等于零的概率，评价项目风险，判断其可行性的决策分析方法，是直观运用概率分析的一种图解法。它是一种监督学习，所谓监督学习就是给定一堆样本，每个样本都有一组属性和一个类别，这些类别是事先确定的，那么通过学习得到一个分类器，这个分类器能够对新出现的对象给出正确的分类。树中每个节点表示某个对象，而每个分叉路径则代表的某个可能的属性值，而每个叶结点则对应从根节点到该叶节点所经历的路径所表示的对象的值。

2024-06-12 20:25:17 493

空空如也

空空如也