删除不用的列标签

温旧酒一壶~

已于 2022-03-09 09:06:18 修改

阅读量549

点赞数

分类专栏：不良分析文章标签：机器学习 python

于 2022-03-09 08:57:08 首次发布

本文链接：https://blog.csdn.net/weixin_41395763/article/details/123368090

版权

数据清洗标签处理模型训练 CSV 数据预处理

关键词由CSDN通过智能技术生成

不良分析专栏收录该内容

3 篇文章 0 订阅

订阅专栏

1、原先的label标签，可以看出有的标签名不止占一行，这样的标签在后期做训练时会出错，而且还有一些列标签对模型判断没有作用，也给删除掉。

标签文件名

代码

import pandas as pd
import os

lineData = []
dirFile = 'C:/Users/S/Desktop/B4VM/data/Label/RawCvdLabel'
for root,dirs,files in os.walk(dirFile):
    for file in files:
        if len(file.split("_")) == 7:
            glsId = file.split('_')[4]
        else:
            glsId = file.split('_')[3]

        path = os.path.join(root,file)
        cvdThick = pd.read_csv(path,encoding = 'utf8')
        #print(cvdThick)
        if cvdThick.shape[1] == 15:
            cvdThick = cvdThick.drop(['Unnamed: 7','Unnamed: 8','Unnamed: 10','Unnamed: 11','Unnamed: 12','Unnamed: 13','Unnamed: 14'],axis=1)
            #print(cvdThick)
            cvdThick.columns = ['Probe','Area','X','Sub X','Y','Z','Lay1 Thickness','Lay2 Thickness']
            cvdThick = cvdThick.drop([0,1])
            #print(cvdThick)
            cvdThick = cvdThick.reset_index().drop(['index'],axis = 1)
            #print(cvdThick)
            name = glsId +'_cvdThick' + '.csv'
            cvdThick.to_csv('C:/Users/S/Desktop/B4VM/data/Label/2CleanCvdLabel/'+name,index=False,encoding='utf_8_sig')

#输出