python pandas 清洗数据

honyudeng

已于 2023-09-23 14:00:29 修改

阅读量74

点赞数

文章标签： python pandas 开发语言

于 2023-09-23 13:59:00 首次发布

本文链接：https://blog.csdn.net/honyudeng/article/details/133204518

版权

提示：文章写完后，目录可以自动生成，如何生成可参考右边的帮助文档

文章目录

处理数量比较大的数据CSV版
一、pandas是什么？
二、使用步骤
- 1.引入库
- 2.详细代码
处理数量比较大的数据excel版
二、使用步骤
- 2.详细代码
总结

处理数量比较大的数据CSV版

提示：这里可以添加本文要记录的大概内容：

例如：随着人工智能的不断发展，机器学习这门技术也越来越重要，很多人都开启了学习机器学习，本文就介绍了机器学习的基础内容。

提示：以下是本篇文章正文内容，下面案例可供参考

一、pandas是什么？

示例：pandas 是基于NumPy 的一种工具，该工具是为了解决数据分析任务而创建的。

二、使用步骤

1.引入库

代码如下（示例）：

import os,time
import pandas as pd
import numpy as np
#pip install pandas openpyxl xlrd xlwt
''' 
pandas：用于数据分析和处理，支持读写Excel文件。
openpyxl：用于读写Excel文件。
xlrd：用于读取Excel文件。
xlwt：用于写入Excel文件
'''

2.详细代码

代码如下（示例）：

local_path = os.getcwd()
print(local_path)
print("程序正在运行,请等待... ...")
time_start = time.time()
excel_file = local_path+"\\data.csv"
data = pd.read_csv(excel_file,engine="python")
time_end = time.time()
print("耗时{}秒".format(time_end - time_start))
column_text = data.iloc[:,[1,3,4,7,9,10]]#获取对应列数据
clumn_data = column_text.to_dict('split')
clas_s = ''
i = 0
ix = 0
writer = ""
class_list = []
ming_list = []
bian_list = []
dict_data = {}
for x in clumn_data['data']:
    if clas_s != x[0] and x[0] !='class_别' and type(x[0])!=float:
       clas_s = x[0]#遇到新的class_别
       if clas_s not in dict_data:
           dict_data[clas_s]={'name':x[1],'pic_code':x[2]}
new_list = list(set(dict_data))
print('new_list',new_list)
for ix in new_list:
    dict_data[ix]['class_别']=[]
    dict_data[ix]['name']=[]
    dict_data[ix]['pic_code']=[]
    for x in clumn_data['data']:
        if x[0] == ix:
           dict_data[ix]['class_别'].append(x[0])          
           dict_data[ix]['name'].append(x[1])          
           dict_data[ix]['pic_code'].append(x[2])            
        if x[3] == ix:
           dict_data[ix]['class_别'].append(x[3])          
           dict_data[ix]['name'].append(x[4])          
           dict_data[ix]['pic_code'].append(x[5])          

for x in dict_data:
    print(x)
    class_dict={
        'class_别':dict_data[x]['class_别'],
        'name':dict_data[x]['name'],
        'pic_code':dict_data[x]['pic_code']
    }
    print(class_dict)
    try:
        s1 = pd.DataFrame(class_dict)
        s1.to_csv(local_path+"\\"+x+".csv", index=False)#csv只能生成单个文件
    except Exception as E:
       print('error',E)
    else:
       pass
    class_dict={}
print('结束')
exit()

处理数量比较大的数据excel版

二、使用步骤

2.详细代码

代码如下（示例）：

local_path = os.getcwd()
print(local_path)
print("程序正在运行,请等待... ...")
excel_file = local_path+"\\data.xlsx"
data = pd.read_excel(excel_file)
column_text = data.iloc[:,[1,3,4,7,9,10]]#获取对应列数据
clumn_data = column_text.to_dict('split')
clas_s = ''
i = 0
ix = 0
writer = ""
class_list = []
ming_list = []
bian_list = []
dict_data = {}
for x in clumn_data['data']:
    if clas_s != x[0] and x[0] !='class_别':
       clas_s = x[0]#遇到新
       if clas_s not in dict_data:
           dict_data[clas_s]={'name':x[1],'pic_code':x[2]}
new_list = list(set(dict_data))
print('new_list',new_list)
for ix in new_list:
    dict_data[ix]['class_别']=[]
    dict_data[ix]['name']=[]
    dict_data[ix]['pic_code']=[]
    for x in clumn_data['data']:
        if x[0] == ix:
           dict_data[ix]['class_别'].append(x[0])          
           dict_data[ix]['name'].append(x[1])          
           dict_data[ix]['pic_code'].append(x[2])            
        if x[3] == ix:
           dict_data[ix]['class_别'].append(x[3])          
           dict_data[ix]['name'].append(x[4])          
           dict_data[ix]['pic_code'].append(x[5])          
for x in dict_data:
    print(x)
    class_dict={
        'class_别':dict_data[x]['class_别'],
        'name':dict_data[x]['name'],
        'pic_code':dict_data[x]['pic_code']
    }
    writer = pd.ExcelWriter(excel_file, mode="a")
    print(class_dict)
    try:
        s1 = pd.DataFrame(class_dict)
        s1.to_excel(writer, sheet_name=x, index=False)#可以把一个页面里的数据分成多个sheet
    except Exception as E:
       print('error',E)
    else:
       writer.close()
       pass
    class_dict={}
print('结束')
exit()