数据预处理--行业划分(3)

分析:先按照有无造假结果进行划分

#按flag分为两个文件
import numpy as np
import matplotlib.pyplot as plt
import pandas as pd
D=pd.read_csv('D:\\泰迪杯\\alldata.csv',encoding='gbk',engine='python')#index_col=0 直接将第一列作为索引,不额外添加列
print(D.shape)
#把数据按有无Flag分类
D1=D[D['是否在当年造假'].isnull()]#是否在当年造假为空
D1.head()
D1.to_csv('D:\\泰迪杯\\notflag.csv',index=False)
print(D1.shape)
D2=D[D['是否在当年造假'].notna()]#前5年的数据(有最后一列是否造假结果)
D2.to_csv('D:\\泰迪杯\\flag.csv',index=False)
print(D2.shape)

根据题干再把D2分为制造业和非制造业

#读取数据
data =pd.read_csv(r'C:\Users\44933\Desktop\数据挖掘材料\全部数据\flag.csv',encoding='gbk')
industrys=data.iloc[:,1].drop_duplicates().to_list()
data_make=data[data['所属行业'] == '制造业']
data_make.to_csv('C:\\Users\\44933\\Desktop\\数据挖掘材料\\制造业flag.csv',index=None)
industrys.remove('制造业')
data_industry1 =data[data['所属行业'] == industrys[0]]
#建立循环,依次取出对应行业,并按列表中元素命名,存放在和原表同目录下
for industry in industrys[1:]:
    data_industry =data[data['所属行业'] == industry]
    data_industry1=pd.concat([data_industry1,data_industry],axis=0)
#把其他行业全部合并成一个文件
writer = 'C:\\Users\\44933\\Desktop\\数据挖掘材料\\其他行业flag.csv'
data_industry1.to_csv(writer,index=None)

结果:把全部数据拆分成有标签的制造业,有标签的其他行业,无标签的制造业,无标签的其他行业4个文件

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值