一、数据处理
1.DataProcessingVer2 x.ipynb
处理x数据:yingxiao_x.csv
2.DataProcessingVer2 y.ipynb
处理y数据:yingxiao_y.csv
3.DataProcessingVer2 yingxiao _x&y.ipynb
x数据与y数据列合并:yingxiao_y_x.csv
4.DataProcessingVer2 yingxiao_y&noise.ipynb
输入数据:yingxiao_y_x.csv
加两列随机噪声
输出数据:yingxiao_y_x_noise.csv
5.DataProcessingVer2 yingxiao_y&x imbalance y 40000.ipynb
输入数据:yingxiao_y_x.csv
对y(是否持有定期存款)标签进行处理,y=1随机挑选200000行,y=0随机挑选800000行,合并后对全零行补充随机噪声,删去其他y标签
输出数据:yingxiao_y_x_imbalanced_40000.csv
选取前两列,补充两列随机噪声
输出数据:yingxiao_y_x_noise_imbalanced_40000.csv
6.DataProcessingVer2 yingxiao_y&x imbalance y3 10000.ipynb
输入数据:yingxiao_y_x.csv
对y3(是否持有结构性存款)标签进行处理,y3=1随机挑选50000行,y3=0随机挑选200000行,合并后对全零行补充随机噪声,删去其他y标签
输出数据:yingxiao_y_x_imbalanced_y3.csv
选取前两列,补充两列随机噪声
输出数据:yingxiao_y_x_noise_imbalanced_y3.csv
7.DataProcessingVer2 yingxiao_y&x imbalance y3 40000.ipynb
输入数据:yingxiao_y_x.csv
对y3(是否持有结构性存款)标签进行处理,y3=1随机挑选200000行,y3=0随机挑选800000行,合并后对全零行补充随机噪声,删去其他y标签
输出数据:yingxiao_y_x_imbalanced_y3_40000.csv
选取前两列,补充两列随机噪声
输出数据:yingxiao_y_x_noise_imbalanced_y3_40000.csv
8.DataProcessingVer2 yingxiao_y&x imbalance y5 10000.ipynb
输入数据:yingxiao_y_x.csv
对y5(是否持有大额存单)标签进行处理,y5=1随机挑选50000行,y5=0随机挑选200000行,合并后对全零行补充随机噪声,删去其他y标签
输出数据:yingxiao_y_x_imbalanced_y5.csv
选取前两列,补充两列随机噪声
输出数据:yingxiao_y_x_noise_imbalanced_y5.csv
9.DataProcessingVer2 yingxiao_y&x imbalance y5 20000.ipynb
输入数据:yingxiao_y_x.csv
对y5(是否持有大额存单)标签进行处理,y5=1随机挑选100000行,y5=0随机挑选400000行,合并后对全零行补充随机噪声,删去其他y标签
输出数据:yingxiao_y_x_imbalanced_y5_20000.csv
选取前两列,补充两列随机噪声
输出数据:yingxiao_y_x_noise_imbalanced_y5_20000.csv
10.DataProcessingVer2 yingxiao_y&x merge_default.ipynb
输入数据:yingxiao_y_x.csv
输入数据:huabei_total_label.csv
标签改为整形数据,否则在fate中易报错,“身份证号”改为“ID”,“y”改为“y1”
对数据按相同ID进行合并
df = pd.merge(df2,df1,on = 'ID')
如果出现了不同的ID,进行合并时的处理方式将取决于 merge 函数的 how 参数。
how 参数用于指定合并的方式,常用的取值包括 'inner'、'outer'、'left' 和 'right'。
'inner':只保留两个DataFrame中都存在的ID行,其他行将被丢弃。
'outer':保留所有ID行,如果在一个DataFrame中不存在对应的ID,则对应的列将被填充为缺失值(NaN)。
'left':保留左侧DataFrame(第一个参数)的所有行,并根据ID进行匹配。如果在右侧DataFrame中不存在对应的ID,则对应的列将被填充为缺失值。
'right':保留右侧DataFrame(第二个参数)的所有行,并根据ID进行匹配。如果在左侧DataFrame中不存在对应的ID,则对应的列将被填充为缺失值。
默认情况下,merge 函数的 how 参数为 'inner'。如果想保留所有ID的行,不论是否存在匹配,可以将 how 参数设置为 'outer'。
以下是一个使用 'outer' 方式合并的例子:
df = pd.merge(df2,df1,on = 'ID', how='outer')
输出数据:yingxiao_y_x_merge_default.csv
11.DataProcessingVer2 yingxiao_y&x merge_default imbalance.ipynb
输入数据:yingxiao_y_x_merge_default.csv
对y标签进行处理,y=1有8147行,y=0随机挑选32000行,对全零行补充随机噪声
输出数据:yingxiao_y_x_merge_default_imbalanced.csv
选取前两列,补充两列随机噪声
输出数据:yingxiao_y_x_merge_default_noise_imbalanced.csv
12.DataProcessingVer2 yingxiao_y&x merge_default noise.ipynb
输入数据:yingxiao_y_x_merge_default.csv
选取前两列,补充两列随机噪声
输出数据:yingxiao_y_x_merge_default_noise.csv
13.输入输出数据总结
yingxiao_x.csv | 处理x数据 |
yingxiao_y.csv | 处理y数据 |
yingxiao_y_x.csv | x与y合并 |
yingxiao_y_x_noise.csv | 前两列后加两列噪声 |
yingxiao_y_x_imbalanced_40000.csv | y标签,200000,800000 |
yingxiao_y_x_noise_imbalanced_40000.csv | y标签,前两列后加两列噪声 |
yingxiao_y_x_imbalanced_y3.csv | y3标签,50000,200000 |
yingxiao_y_x_noise_imbalanced_y3.csv | y3标签,前两列后加两列噪声 |
yingxiao_y_x_imbalanced_y3_40000.csv | y3标签,200000,800000 |
yingxiao_y_x_noise_imbalanced_y3_40000.csv | y3标签,前两列后加两列噪声 |
yingxiao_y_x_imbalanced_y5.csv | y5标签,50000,200000 |
yingxiao_y_x_noise_imbalanced_y5.csv | y5标签,前两列后加两列噪声 |
yingxiao_y_x_imbalanced_y5_20000.csv | y5标签,100000,400000 |
yingxiao_y_x_noise_imbalanced_y5_20000.csv | y5标签,前两列后加两列噪声 |
huabei_total_label.csv | huabei数据y |
yingxiao_y_x_merge_default.csv | 数据合并 |
yingxiao_y_x_merge_default_noise.csv | 加两列随机噪声 |
yingxiao_y_x_merge_default_imbalanced.csv | y标签,8147,32000 |
yingxiao_y_x_merge_default_noise_imbalanced.csv | y标签前两列后加两列噪声 |