【信贷风控30分钟精通27】特征挖掘4

本文介绍了在风控领域中,如何构建中间数据集,包括结构化数据的处理、文本数据的关键字提取和机器学习处理,以及关系网络数据的图结构抽取和子图特征聚合。重点讲解了如何将非结构化数据转化为可用于特征挖掘的格式。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

目录

​编辑

中间数据集构建

结构化数据

文本数据

关系网络数据


中间数据集构建

中间数据集构建是将清洗完成的原始数据初步处理成结构化的数据或者适用于某些特定算法的数据格式,以方便后续特征挖掘。不同类型的原始数据需要使用不同方法来处理成中间数据集。接下来,我们将分别给出结构化数据、文本数据和关系网络数据的中间数据集构建过程。

结构化数据是高度组织、格式整齐的数据,通常是可以用统一的结构(如二维表)来表达的数据。结构化数据一般使用关系型数据库且以行为单位表示。与之对应的是非结构化数据,非结构化数据是数据结构不规则或不完整,没有预定义的数据模型,不方便用数据库二维逻辑表来表达的数据,通常存储在非关系型数据库中风控场景中的非结构化数据有文本数据、关系网络数据等

结构化数据

结构化数据本身是适合特征计算的,我们需要注意的是数据本身的粒度。风控业务中的原始数据粒度从大到小依次为渠道、客户、借款、还款等。不同场景下的特征挖掘需要不同的数据粒度。结构化数据应用时会遇到两种情况:

一种情况,如果已经是合适的粒度,就可以直接作为特征在模型或规则中应用;

另一种情况是需要经过聚合汇总才能转换成建模可用的粒度。原始数据最终是否需要汇总取决于特征挖掘的应用场景,如针对贷前模型,客户的年龄、学历、月收入等已经是建模可用的粒度,将直接作为特征使用;客户历史订单、历史行为埋点数据则需要经过聚合汇总为客户粒度之后再挖掘特征。

文本数据

文本数据就是用文本形式表示的数据。文本数据的特征挖掘方法有3种:

  • 一是提取关键字并将文本数据转化为结构化数据,再进行特征挖掘;
  • 二是基于机器学习或深度学习算法从文本中提取特征;
  • 三是使用文本分类算法训文本分类模型,然后将模型输出的概率值作为特征使用。

转化为结构化数据

基于关键字提取特征是将文本数据转化为结构化数据的常用方法。具体做法是先构建关键字集合,再根据关键字在每条文本中出现的次数构建中间数据集。关键字集合的构建一般是基于业务经验,并结合原始数据的分析。另外,可以通过TextRank算法提取关键字。TextRank 是一种基于图的算法,是PageRank在文本上的应用。

构建适用于文本算法的数据集

应用机器学习或深度学习算法挖掘文本特征,或者使用文本分类模型,其文本数据的处理方法是类似的。这些算法的输入是文本序列化之后的词,首先需要对每条文本做清洗和预处理,包括过滤标点符号、特殊字符、删除停用词;然后做分词,形成文本序列;最后合并一个客户的多条文本序列并作为输入。

文本清洗

我们的文本中经常包含对特征挖掘没有太大价值的内容,如大部分的标点符号、HTML标签等,这些符号通常会给文本增加额外噪声。HTML标签可以借助BeautfulSoup库来处理。文本中标点符号等特殊字符的清洗可以使用正则表达式。过滤标点符号之后可以得到文本。

文本预处理

清洗之后的文本可以做分词、停用词过滤,以及对时间数据的提取。停用词主要是基于停用词表来过滤,网络上的常用停用词表有很多。GitHub上的常用停用词表项目中包含哈工大停用词表、百度停用词表和四川大学机器智能实验室停用词表。英文文本天然有空格作为分隔,而中文基于通用语料库分词,如jieba分词、哈工大的pyltp等

关系网络数据

关系网络数据通常是指用来描述实体之间关系的数据。关系网络数据中的实体可能存在多种类型,实体之间也可能存在多种关系。处理关系网络数据通常分为以下两步。

  • (1)从复杂的现实关系网络中抽取有价值的实体和关系并将其表达为图结构。
  • (2)构建中间数据集,转化为结构化数据或者构建适用于图算法的中间数据。

在处理关系网络数据时,需要注意对超级节点的处理。超级节点是指关联的边非常多的节点。例如,在使用客户IP数据搭建关系网络时,学校或公司公共使用的节点很容易成为超级节点。超级节点关联的节点众多,相关的增加、删除、修改和查询操作比较耗时。有些超级节点并不重要,经过分析,可以删除。在某些情况下,超级节点本身可能与风险有关,此时应仔细辨别。

在将关系网络数据用于传统的特征挖掘时,构建中间数据集通常包含3步:

  • 第1步,计算所有节点的特征,可以使用结构化数据特征挖掘的方法;
  • 第2步,针对每个节点抽取子图结构,基于计算效率的考虑,抽取子图结构通常只会针对节点的一度和二度邻居节点进行;
  • 第3步,将所有节点的特征按照子图中心节点来整理,形成中间数据集。

特征挖掘的过程实际是通过将子图节点的特征做聚合转换等操作来生成中心节点的特征。

print('要天天开心啊')

<think>好的,用户想了解信贷特征工程的技术和方法。首先我需要回忆一下之前提供的参考引用内容,看看有哪些相关的信息可以整合。引用[2]和[3]提到了自动化特征工程,特别是如何通过预定义的算子和模式批量生成特征,这应该是一个重点。引用[4]强调了数据探索的重要性,包括理解业务含义和数据的基本特征类型,这部分在特征工程中也很关键。 用户的问题涉及方法、技术和实现,所以需要分几个部分来回答。首先是传统的手工特征工程,这里可以结合引用[3]提到的业务专家经验定义特征,类似于手工打造。然后是自动化特征工程,引用[2]和[3]都讨论了自动化的优势,比如批量生成特征,减少人工干预,这里需要详细说明技术手段,比如特征生成框架和自动编码器。 接下来是数据预处理和特征处理技术,这部分需要包括数据清洗、缺失值处理、标准化等,引用[4]提到的数据探索和预处理可以支持这一点。然后是特征选择与评估,这里可以引用[4]的数据类型分析,比如定类型、定序型等,说明如何通过统计方法和模型评估特征重要性。 在实现层面,需要提到具体的工具和平台,比如Python的Featuretools,以及如何结合业务知识进行优化。最后结合引用[1]中的蒙特卡洛方法,说明特征工程如何与险评估模型结合,提升预测准确性。 需要注意的是,用户可能对如何具体实施自动化特征工程或如何处理高维数据有疑问,所以相关问题部分可以包括这些方面。另外,要确保回答结构清晰,分点说明,并自然地融入引用内容作为支持。</think>### 信贷中的特征工程技术和方法 信贷特征工程是通过对数据的深度挖掘与转换,构建能够有效区分险的特征变量,为险评估模型提供输入。以下是主要方法和技术实现: --- #### 1. **传统手工特征工程** - **业务经验驱动**:基于业务专家对信贷场景的理解,人工定义与还款能力、还款意愿相关的特征,例如: - 负债收入比:$$ \text{负债收入比} = \frac{\text{月负债}}{\text{月收入}} $$ - 历史逾期次数:统计借款人过去12个月的逾期记录[^3]。 - **数据探索与业务理解**:通过分析数据分布(如定比型、定序型数据)、缺失值比例和异常值,结合业务逻辑筛选有效特征[^4]。 --- #### 2. **自动化特征工程** - **特征生成框架**:利用预定义的算子(如聚合、时间窗口统计、交叉组合)批量生成特征。例如: - 对借款人近3个月的交易流水自动生成“平均交易金额”“最大单笔消费”等特征。 - 使用自动编码器(Autoencoder)对高维稀疏数据(如消费行为)进行降维和特征提取[^2]。 - **工具支持**:Python的`Featuretools`库可基于时间戳和实体关系自动生成特征组合[^2]。 --- #### 3. **数据预处理与特征处理技术** - **缺失值填充**:针对收入、职业等字段,采用均值填充、模型预测(如随机森林)或业务规则填充(如默认职业为“其他”)[^4]。 - **标准化与分箱**: - 对连续变量(如年龄)进行分箱处理,转化为定序型特征。 - 对数值型特征使用Z-score标准化:$$ x_{\text{标准化}} = \frac{x - \mu}{\sigma} $$ - **异常值处理**:通过IQR(四分位距)或业务阈值过滤极端值。 --- #### 4. **特征选择与评估** - **统计方法**: - 使用IV值(Information Value)评估特征对目标变量(如是否违约)的预测能力:$$ \text{IV} = \sum \left( \frac{\text{好样本占比} - \text{坏样本占比}}{\ln(\text{好样本占比}/\text{坏样本占比})} \right) $$ - 通过相关系数、卡方检验筛选高区分度特征[^4]。 - **模型驱动**:利用Lasso回归、随机森林的特征重要性排序,剔除冗余特征。 --- #### 5. **实现与应用** - **工具链**:结合`Pandas`(数据清洗)、`Scikit-learn`(特征编码)、`TSFRESH`(时间序列特征生成)等工具实现全流程自动化[^2]。 - **业务结合**:将生成的变量与蒙特卡洛模拟结合,预测借款人未来现金流稳定性[^1]。 ---
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

水木流年追梦

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值