建模与调参

最新推荐文章于 2024-08-04 02:35:58 发布

Lemon_pudding

最新推荐文章于 2024-08-04 02:35:58 发布

阅读量312

点赞数

分类专栏：机器学习

本文链接：https://blog.csdn.net/Lemon_pudding/article/details/108779389

版权

机器学习专栏收录该内容

5 篇文章 0 订阅

订阅专栏

本文主要探讨了金融风控领域中机器学习模型的选择，包括逻辑回归、树模型和集成模型。介绍了各类模型的优缺点，并详细阐述了集成模型如随机森林、Adaboost、GBDT等。此外，还讨论了模型性能评估方法，如留出法、交叉验证法和自助法，并强调了数据集划分的重要性。最后提到了模型调参的关键性。

摘要由CSDN通过智能技术生成

学习目标
1. 学习在金融分控领域常用的机器学习模型
2. 学习机器学习模型的建模过程与调参流程
3. 完成相应学习打卡任务

导入包和环境设置

import pandas as pd 
import numpy as np 
import warnings 
import os 
import seaborn as sns

import matplotlib.pyplot as plt 
""" sns 相关设置 
@return:
""" 

# 声明使用 Seaborn 样式 
sns.set() 
# 有五种seaborn的绘图风格，它们分别是：darkgrid, whitegrid, dark, white, ticks。默认的主题是 darkgrid。 
sns.set_style("whitegrid") 
# 有四个预置的环境，按大小从小到大排列分别为：paper, notebook, talk, poster。其中，notebook是默 认的。 
sns.set_context('talk') 
# 中文字体设置-黑体

plt.rcParams['font.sans-serif']=['SimHei']

# 解决保存图像是负号'-'显示为方块的问题

plt.rcParams['axes.unicode_minus']=False

# 解决Seaborn中文显示问题并调整字体大小 
sns.set(font='SimHei')

导入数据

def reduce_mem_usage(df):

start_mem = df.memory_usage().sum() print('Memory usage of dataframe is {:.2f} MB'.format(start_mem))

for col in df.columns:

col_type=df[col].dtype

if col_type != object:

    c_min= df[col].min()

    c_max= df[col].max()

    if str(col_type)[:3] == 'int':

        if c_min > np.iinfo(np.int8).min and c_max < np.iinfo(np.int8).max:

            df[col]
            df[col].astype(np.int8)

        elif c_min > np.iinfo(np.int16).min and c_max < np.iinfo(np.int16).max:

            df[col]=df[col].astype(np.int16)

        elif c_min > np.iinfo(np.int32).min and c_max < np.iinfo(np.int32).max:

            df[col]=df[col].astype(np.int32)

        elif c_min > np.iinfo(np.int64).min and c_max < np.iinfo(np.int64).max:
            df[col]=df[col].astype(np.int64)



df[col].max()

逻辑回归模型

优点
a. 训练速度较快，分类的时候，计算量仅仅只和特征的数目相关；
b. 简单易理解，模型的可解释性非常好，从特征的权重可以看到不同的特征对最后结果的影响；
c. 适合二分类问题，不需要缩放输入特征；
d. 内存资源占用小，只需要存储各个维度的特征值；

缺点
a. 逻辑回归需要预先处理缺失值和异常值；
b. 不能用Logistic回归去解决非线性问题，因为Logistic的决策面是线性的；
c. 对多重共线性数据较为敏感，且很难处理数据不平衡的问题；
d. 准确率并不是很高，因为形式非常简单，很难去拟合数据的真实分布；

树模型

优点
a. 简单直观，生成的决策树可以可视化展示
b. 数据不需要预处理，不需要归一化，不需要处理缺失数据
c. 既可以处理离散值，也可以处理连续值
缺点
a. 决策树算法非常容易过拟合，导致泛化能力不强（可进行适当的剪枝）
b. 采用的是贪心算法，容易得到局部最优解

集成模型

通过组合多个学习器来完成学习任务，通过集成方法，可以将多个弱学习器组合成一个强分类器，因此集成学习
的泛化能力一般比单一分类器要好。
集成方法主要包括Bagging和Boosting，Bagging和Boosting都是将已有的分类或回归算法通过一定方式组合起来，
形成一个更加强大的分类。两种方法都是把若干个分类器整合为一个分类器的方法，只是整合的方式不一样，最
终得到不一样的效果。常见的基于Baggin思想的集成模型有：随机森林、基于Boosting思想的集成模型有：
Adaboost、GBDT、XGBoost、LightGBM等。

Bagging和Boosting的区别总结如下：
1. 样本选择上： Bagging方法的训练集是从原始集中有放回的选取，所以从原始集中选出的各轮训练集之间是独
立的；而Boosting方法需要每一轮的训练集不变，只是训练集中每个样本在分类器中的权重发生变化。而权值
是根据上一轮的分类结果进行调整
2. 样例权重上： Bagging方法使用均匀取样，所以每个样本的权重相等；而Boosting方法根据错误率不断调整样
本的权值，错误率越大则权重越大
3. 预测函数上： Bagging方法中所有预测函数的权重相等；而Boosting方法中每个弱分类器都有相应的权重，对
于分类误差小的分类器会有更大的权重
4. 并行计算上： Bagging方法中各个预测函数可以并行生成；而Boosting方法各个预测函数只能顺序生成，因为
后一个模型参数需要前一轮模型的结果。

模型对比与性能评估

对于模型来说，其在训练集上面的误差我们称之为训练误差或者经验误差，而在测试集上的误差称之为测试误
差。
对于我们来说，我们更关心的是模型对于新样本的学习能力，即我们希望通过对已有样本的学习，尽可能的将所
有潜在样本的普遍规律学到手，而如果模型对训练样本学的太好，则有可能把训练样本自身所具有的一些特点当
做所有潜在样本的普遍特点，这时候我们就会出现过拟合的问题。
因此我们通常将已有的数据集划分为训练集和测试集两部分，其中训练集用来训练模型，而测试集则是用来评估
模型对于新样本的判别能力。
对于数据集的划分，我们通常要保证满足以下两个条件：
1. 训练集和测试集的分布要与样本真实分布一致，即训练集和测试集都要保证是从样本真实分布中独立同分布
采样而得；
2. 训练集和测试集要互斥
对于数据集的划分有三种方法：留出法，交叉验证法和自助法，下面挨个介绍：
1. ①留出法
留出法是直接将数据集D划分为两个互斥的集合，其中一个集合作为训练集S，另一个作为测试集T。需要注意
的是在划分的时候要尽可能保证数据分布的一致性，即避免因数据划分过程引入额外的偏差而对最终结果产
生影响。为了保证数据分布的一致性，通常我们采用分层采样的方式来对数据进行采样。
Tips：通常，会将数据集D中大约2/3~4/5的样本作为训练集，其余的作为测试集。
2. ②交叉验证法

k折交叉验证通常将数据集D分为k份，其中k-1份作为训练集，剩余的一份作为测试集，这样就可以获得k组训
练/测试集，可以进行k次训练与测试，最终返回的是k个测试结果的均值。交叉验证中数据集的划分依然是依
据分层采样的方式来进行。
对于交叉验证法，其k值的选取往往决定了评估结果的稳定性和保真性，通常k值选取10。
当k=1的时候，我们称之为留一法
3. ③自助法
我们每次从数据集D中取一个样本作为训练集中的元素，然后把该样本放回，重复该行为m次，这样我们就可
以得到大小为m的训练集，在这里面有的样本重复出现，有的样本则没有出现过，我们把那些没有出现过的样
本作为测试集。
进行这样采样的原因是因为在D中约有36.8%的数据没有在训练集中出现过。留出法与交叉验证法都是使用分
层采样的方式进行数据采样与划分，而自助法则是使用有放回重复采样的方式进行数据采样

数据集划分总结
1. 对于数据量充足的时候，通常采用留出法或者k折交叉验证法来进行训练/测试集的划分；
2. 对于数据集小且难以有效划分训练/测试集时使用自助法；
3. 对于数据集小且可有效划分的时候最好使用留一法来进行划分，因为这种方法最为准确

模型评价标准

模型调参