VBA处理数据与Python Pandas处理数据案例比较分析

最新推荐文章于 2023-06-08 16:46:50 发布

jh035512

最新推荐文章于 2023-06-08 16:46:50 发布

阅读量331

点赞数

文章标签： pandas python 数据分析

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/jh035512/article/details/128048371

版权

本文通过Python的Pandas库和VBA宏代码展示了如何处理CSV文件，具体操作包括移除空行、保留唯一数据、重命名列及添加新列。对比两者，Pandas的代码更加简洁，而VBA利用数组和字典处理大数据时更为高效，但代码量较大，调试相对复杂。

摘要由CSDN通过智能技术生成

需求：

现有一个 csv文件，包含'CNUM'和'COMPANY'两列，数据里包含空行，且有内容重复的行数据。

要求：

1）去掉空行；
2）重复行数据只保留一行有效数据；
3）修改'COMPANY'列的名称为'Company_New‘；
4）并在其后增加六列，分别为'C_col',‘D_col',‘E_col',‘F_col',‘G_col',‘H_col'。

一，使用 Python Pandas来处理：

1

2

3

4

5

6

7

8

9

10

11

12

13

14

15

16

17

18

19

import pandas as pd

import numpy as np

from pandas import DataFrame,Series

def deal_with_data(filepath,newpath):

file_obj=open(filepath)

df=pd.read_csv(file_obj) # 读取csv文件，创建 DataFrame

df=df.reindex(columns=['CNUM','COMPANY','C_col','D_col','E_col','F_col','G_col','H_col'],fill_value=None) # 重新指定列索引

df.rename(columns={'COMPANY':'Company_New'}, inplace = True) # 修改列名

df=df.dropna(axis=0,how='all') # 去除 NAN 即文件中的空行

df['CNUM'] = df['CNUM'].astype('int32') # 将 CNUM 列的数据类型指定为 int32

df = df.drop_duplicates(subset=['CNUM', 'Company_New'], keep='first') # 去除重复行

df.to_csv(newpath,index=False

最低0.47元/天解锁文章

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
打赏
0
评论
VBA处理数据与Python Pandas处理数据案例比较分析

Excel VBA 处理这个需求，使用了数组，字典等数据结构（实际需求中，数据量往往很大，所以一些地方没有直接使用遍历单元格的方法），以及处理字符串，数组和字典的很多方法，对文件的操作也很复杂，一旦出错，调试起来比python也较困难，代码已经尽量优化，但还是远比 Python要多。4）并在其后增加六列，分别为'C_col',‘D_col',‘E_col',‘F_col',‘G_col',‘H_col'。3）修改'COMPANY'列的名称为'Company_New‘；2）重复行数据只保留一行有效数据；
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

jh035512 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。