数据预处理--行业划分（3）

a尼

已于 2024-02-16 18:27:52 修改

阅读量496

点赞数

分类专栏： python 文章标签：数据拆分标签分类制造业数据预处理行业分类

于 2021-08-14 22:25:14 首次发布

本文链接：https://blog.csdn.net/m0_56094505/article/details/119706998

版权

python 专栏收录该内容

24 篇文章 4 订阅

订阅专栏

分析：先按照有无造假结果进行划分

#按flag分为两个文件
import numpy as np
import matplotlib.pyplot as plt
import pandas as pd
D=pd.read_csv('D:\\泰迪杯\\alldata.csv',encoding='gbk',engine='python')#index_col=0 直接将第一列作为索引，不额外添加列
print(D.shape)
#把数据按有无Flag分类
D1=D[D['是否在当年造假'].isnull()]#是否在当年造假为空
D1.head()
D1.to_csv('D:\\泰迪杯\\notflag.csv',index=False)
print(D1.shape)
D2=D[D['是否在当年造假'].notna()]#前5年的数据(有最后一列是否造假结果)
D2.to_csv('D:\\泰迪杯\\flag.csv',index=False)
print(D2.shape)

根据题干再把D2分为制造业和非制造业

#读取数据
data =pd.read_csv(r'C:\Users\44933\Desktop\数据挖掘材料\全部数据\flag.csv',encoding='gbk')
industrys=data.iloc[:,1].drop_duplicates().to_list()
data_make=data[data['所属行业'] == '制造业']
data_make.to_csv('C:\\Users\\44933\\Desktop\\数据挖掘材料\\制造业flag.csv',index=None)
industrys.remove('制造业')
data_industry1 =data[data['所属行业'] == industrys[0]]
#建立循环，依次取出对应行业，并按列表中元素命名，存放在和原表同目录下
for industry in industrys[1:]:
    data_industry =data[data['所属行业'] == industry]
    data_industry1=pd.concat([data_industry1,data_industry],axis=0)
#把其他行业全部合并成一个文件
writer = 'C:\\Users\\44933\\Desktop\\数据挖掘材料\\其他行业flag.csv'
data_industry1.to_csv(writer,index=None)