DJT-精准营销代码分析

该篇文章讲述了对Yingxiao数据集进行深度处理,包括数据清洗、合并、添加噪声,以及针对不同标签不平衡情况的处理,为后续的模型构建做准备。
摘要由CSDN通过智能技术生成

一、数据处理

1.DataProcessingVer2 x.ipynb

        处理x数据:yingxiao_x.csv

2.DataProcessingVer2 y.ipynb

        处理y数据:yingxiao_y.csv

3.DataProcessingVer2 yingxiao _x&y.ipynb

        x数据与y数据列合并:yingxiao_y_x.csv

4.DataProcessingVer2 yingxiao_y&noise.ipynb

        输入数据:yingxiao_y_x.csv

        加两列随机噪声

        输出数据:yingxiao_y_x_noise.csv

5.DataProcessingVer2 yingxiao_y&x imbalance y   40000.ipynb

        输入数据:yingxiao_y_x.csv

        对y(是否持有定期存款)标签进行处理,y=1随机挑选200000行,y=0随机挑选800000行,合并后对全零行补充随机噪声,删去其他y标签

        输出数据:yingxiao_y_x_imbalanced_40000.csv

        选取前两列,补充两列随机噪声

        输出数据:yingxiao_y_x_noise_imbalanced_40000.csv

6.DataProcessingVer2 yingxiao_y&x imbalance y3 10000.ipynb

        输入数据:yingxiao_y_x.csv

        对y3(是否持有结构性存款)标签进行处理,y3=1随机挑选50000行,y3=0随机挑选200000行,合并后对全零行补充随机噪声,删去其他y标签

        输出数据:yingxiao_y_x_imbalanced_y3.csv

        选取前两列,补充两列随机噪声

        输出数据:yingxiao_y_x_noise_imbalanced_y3.csv

7.DataProcessingVer2 yingxiao_y&x imbalance y3 40000.ipynb

        输入数据:yingxiao_y_x.csv

        对y3(是否持有结构性存款)标签进行处理,y3=1随机挑选200000行,y3=0随机挑选800000行,合并后对全零行补充随机噪声,删去其他y标签

        输出数据:yingxiao_y_x_imbalanced_y3_40000.csv

        选取前两列,补充两列随机噪声

        输出数据:yingxiao_y_x_noise_imbalanced_y3_40000.csv

8.DataProcessingVer2 yingxiao_y&x imbalance y5 10000.ipynb

        输入数据:yingxiao_y_x.csv

        对y5(是否持有大额存单)标签进行处理,y5=1随机挑选50000行,y5=0随机挑选200000行,合并后对全零行补充随机噪声,删去其他y标签

        输出数据:yingxiao_y_x_imbalanced_y5.csv

        选取前两列,补充两列随机噪声

        输出数据:yingxiao_y_x_noise_imbalanced_y5.csv

9.DataProcessingVer2 yingxiao_y&x imbalance y5 20000.ipynb

        输入数据:yingxiao_y_x.csv

        对y5(是否持有大额存单)标签进行处理,y5=1随机挑选100000行,y5=0随机挑选400000行,合并后对全零行补充随机噪声,删去其他y标签

        输出数据:yingxiao_y_x_imbalanced_y5_20000.csv

        选取前两列,补充两列随机噪声

        输出数据:yingxiao_y_x_noise_imbalanced_y5_20000.csv

10.DataProcessingVer2 yingxiao_y&x merge_default.ipynb

        输入数据:yingxiao_y_x.csv

        输入数据:huabei_total_label.csv

        标签改为整形数据,否则在fate中易报错,“身份证号”改为“ID”,“y”改为“y1”

        对数据按相同ID进行合并

df = pd.merge(df2,df1,on = 'ID')

如果出现了不同的ID,进行合并时的处理方式将取决于 merge 函数的 how 参数。
how 参数用于指定合并的方式,常用的取值包括 'inner'、'outer'、'left' 和 'right'。

'inner':只保留两个DataFrame中都存在的ID行,其他行将被丢弃。

'outer':保留所有ID行,如果在一个DataFrame中不存在对应的ID,则对应的列将被填充为缺失值(NaN)。

'left':保留左侧DataFrame(第一个参数)的所有行,并根据ID进行匹配。如果在右侧DataFrame中不存在对应的ID,则对应的列将被填充为缺失值。

'right':保留右侧DataFrame(第二个参数)的所有行,并根据ID进行匹配。如果在左侧DataFrame中不存在对应的ID,则对应的列将被填充为缺失值。

默认情况下,merge 函数的 how 参数为 'inner'。如果想保留所有ID的行,不论是否存在匹配,可以将 how 参数设置为 'outer'。

以下是一个使用 'outer' 方式合并的例子:
df = pd.merge(df2,df1,on = 'ID', how='outer')

        输出数据:yingxiao_y_x_merge_default.csv

11.DataProcessingVer2 yingxiao_y&x merge_default imbalance.ipynb

        输入数据:yingxiao_y_x_merge_default.csv

        对y标签进行处理,y=1有8147行,y=0随机挑选32000行,对全零行补充随机噪声

        输出数据:yingxiao_y_x_merge_default_imbalanced.csv

        选取前两列,补充两列随机噪声

        输出数据:yingxiao_y_x_merge_default_noise_imbalanced.csv

12.DataProcessingVer2 yingxiao_y&x merge_default noise.ipynb

        输入数据:yingxiao_y_x_merge_default.csv

        选取前两列,补充两列随机噪声

        输出数据:yingxiao_y_x_merge_default_noise.csv

13.输入输出数据总结

yingxiao_x.csv处理x数据
yingxiao_y.csv处理y数据
yingxiao_y_x.csvx与y合并
yingxiao_y_x_noise.csv前两列后加两列噪声

yingxiao_y_x_imbalanced_40000.csvy标签,200000,800000
yingxiao_y_x_noise_imbalanced_40000.csvy标签,前两列后加两列噪声
yingxiao_y_x_imbalanced_y3.csvy3标签,50000,200000
yingxiao_y_x_noise_imbalanced_y3.csvy3标签,前两列后加两列噪声
yingxiao_y_x_imbalanced_y3_40000.csvy3标签,200000,800000
yingxiao_y_x_noise_imbalanced_y3_40000.csvy3标签,前两列后加两列噪声
yingxiao_y_x_imbalanced_y5.csvy5标签,50000,200000
yingxiao_y_x_noise_imbalanced_y5.csvy5标签,前两列后加两列噪声
yingxiao_y_x_imbalanced_y5_20000.csvy5标签,100000,400000
yingxiao_y_x_noise_imbalanced_y5_20000.csvy5标签,前两列后加两列噪声

huabei_total_label.csvhuabei数据y
yingxiao_y_x_merge_default.csv数据合并
yingxiao_y_x_merge_default_noise.csv加两列随机噪声
yingxiao_y_x_merge_default_imbalanced.csvy标签,8147,32000
yingxiao_y_x_merge_default_noise_imbalanced.csvy标签前两列后加两列噪声

二、数据上传

Upload y_x merge default imbalance

Upload y_x merge default noise imbalance

Upload y_x yingxiao_imbalance 10000

Upload y_x yingxiao_imbalance 40000

Upload y_x yingxiao_imbalance y3 10000

Upload y_x yingxiao_imbalance y3 40000

Upload y_x yingxiao_imbalance y5 10000

Upload y_x yingxiao_imbalance y5 20000

Upload y_x yingxiao_noise imbalance 10000

Upload y_x yingxiao_noise imbalance 40000

Upload y_x yingxiao_noise imbalance y3 10000

Upload y_x yingxiao_noise imbalance y3 40000

Upload y_x yingxiao_noise imbalance y5 10000

三、联合建模

Modeling Hetero sbt ver3 merge default imbalanced all-test.ipynb

Modeling Hetero sbt ver3 merge default imbalanced all.ipynb

Modeling Hetero sbt ver3 merge default noise imbalanced all.ipynb

Modeling Hetero sbt ver3 yingxiao imbalanced all 10000.ipynb

Modeling Hetero sbt ver3 yingxiao imbalanced all 40000.ipynb

Modeling Hetero sbt ver3 yingxiao imbalanced all y3 10000.ipynb

Modeling Hetero sbt ver3 yingxiao mbalanced all y3 40000.ipynb

Modeling Hetero sbt ver3 yingxiao imbalanced all y5 10000.ipynb

Modeling Hetero sbt ver3 yingxiao imbalanced all y5 20000.ipynb

Modeling Hetero sbt ver3 yingxiao noise imbalanced all 10000.ipynb

Modeling Hetero sbt ver3 yingxiao noise imbalanced all 40000.ipynb

Modeling Hetero sbt ver3 yingxiao noise imbalanced all y3 10000.ipynb

Modeling Hetero sbt ver3 yingxiao noise imbalanced all y3 40000.ipynb

Modeling Hetero sbt ver3 yingxiao noise imbalanced all y5 10000.ipynb

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

D¹ J² 涛½

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值