VBA处理数据与Python Pandas处理数据案例比较分析

本文通过Python的Pandas库和VBA宏代码展示了如何处理CSV文件,具体操作包括移除空行、保留唯一数据、重命名列及添加新列。对比两者,Pandas的代码更加简洁,而VBA利用数组和字典处理大数据时更为高效,但代码量较大,调试相对复杂。
摘要由CSDN通过智能技术生成

需求:

现有一个 csv文件,包含'CNUM'和'COMPANY'两列,数据里包含空行,且有内容重复的行数据。

要求:

1)去掉空行;
2)重复行数据只保留一行有效数据;
3)修改'COMPANY'列的名称为'Company_New‘;
4)并在其后增加六列,分别为'C_col',‘D_col',‘E_col',‘F_col',‘G_col',‘H_col'。

一,使用 Python Pandas来处理

1

2

3

4

5

6

7

8

9

10

11

12

13

14

15

16

17

18

19

import pandas as pd

import numpy as np

from pandas import DataFrame,Series

def deal_with_data(filepath,newpath):

  file_obj=open(filepath)

  df=pd.read_csv(file_obj)  # 读取csv文件,创建 DataFrame

  df=df.reindex(columns=['CNUM','COMPANY','C_col','D_col','E_col','F_col','G_col','H_col'],fill_value=None# 重新指定列索引

  df.rename(columns={ 'COMPANY':'Company_New'}, inplace = True) # 修改列名

  df=df.dropna(axis=0,how='all')         # 去除 NAN 即文件中的空行

  df['CNUM'] = df['CNUM'].astype('int32')    # 将 CNUM 列的数据类型指定为 int32

  df = df.drop_duplicates(subset=['CNUM', 'Company_New'], keep='first') # 去除重复行

  df.to_csv(newpath,index=False

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

jh035512

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值