《机器学习》逻辑回归大批量数据的下采样＜8＞

菜就多练_0828

已于 2024-08-26 14:16:52 修改

阅读量1k

点赞数 39

分类专栏：《机器学习》人工智能篇文章标签：机器学习算法人工智能下采样

于 2024-08-21 16:41:13 首次发布

本文链接：https://blog.csdn.net/qq_64603703/article/details/141397366

版权

《机器学习》人工智能篇专栏收录该内容

24 篇文章 1 订阅

订阅专栏

一、案例文件

同样使用上节课的银行贷款案例，其文件内容大致如下：（共28万多条，31列）

现在要继续接着上节课的内容对模型进行优化

二、下采样流程

1、流程图示

2、具体流程介绍

1）切分原数据集

大量数据的文件data，其中有28万多条数据类别为0类的和480多条数据类别为1类的，对这28万多条数据随机取出和类别为1的数目相同条数的数据

data1 = a.sample(len(b))  # 使用sample方法，从a数据集中切出长度等于b的数据，将得到的数据赋值给data1

2）合并数据集

将取出的480条数据和原先类别为1的数据合并，得到一个小数据集data_c，共480x2条数据

# 使用pandas中的concat合并两个数据集
data = pd.concat([train_1,train_2])

3）切分合并的数据集

对这960条数据随机取样取出其中的百分之20当做测试集test，百分之80当做训练集train

4）k折交叉运算

再对这个训练集进行k折交叉验证得到最优的C值，然后在建立模型，导入最优C值，再对这个训练集train进行训练

c = [0.01,0.1,1,10,100]
for i in c:
    model = LogisticRegression(C=i)
    score = c(model,x_train,y_train,cv=8,scoring='recall')  # 使用模型model对数据集进行8折交叉运算
    print(score)

5）导入数据进行测试

把小数据集分出来的百分之20的测试集导入模型，对其进行预测，来观察其召回率以及精确率情况，小数据集测完再去对将原始数据随机取出百分之20的数据当做测试集，再输入模型对其预测

model = LogisticRegression(C=best_c) # 导入上个步骤求得的最优C值
lr.fit(x_train,y_train)  # 对数据进行训练

6）修改阈值

此时发现概率可能还是不高，那么再使用一种方法，也就是修改阈值的方法对其进行处理，取阈值为0.1-0.9这个阶段，分别测试其召回率，最后就可以得到最优模型，完成训练。

4、什么是k折交叉验证

k折交叉验证是一种常用的模型评估方法。它将数据集分成k个子集，每次使用其中的k-1个子集作为训练集，剩下的1个子集作为验证集，然后对模型进行训练和评估。这个过程重复k次，每次使用不同的子集作为验证集。最终，将k次评估的结果平均得到模型的性能指标，如准确率、精确度、召回率等。

5、什么是修改阈值

修改阈值是指在特定的系统或算法中，调整阈值的数值以达到不同的效果或目标。

阈值是一个临界点，用于判断某个输入值是否满足某种条件或达到某个标准。在很多应用中，阈值的设定对结果的准确性和可靠性至关重要。通常情况下，阈值的设定是根据具体需求和应用场景进行的。