CSV大文件的处理(以ngsim数据为例):分割、导入与合并

逗号分隔值(Comma-Separated Values,CSV,有时也称为字符分隔值,因为分隔字符也可以不是逗号),其文件以纯文本形式存储表格数据(数字和文本)。纯文本意味着该文件是一个字符序列,不含必须像二进制数字那样被解读的数据。CSV文件由任意数目的记录组成,记录间以某种换行符分隔;每条记录由字段组成,字段间的分隔符是其它字符或字符串,最常见的是逗号或制表符。通常,所有记录都有完全相同的字段序列。通常都是纯文本文件[1]。

直接用Excel打开CSV文件有时候会出错,而且如果CSV文件记录数过多(超过Excel最大行数1,048,576和最大列数16,384的限制),导入Excel会出现未完全加载的问题。ngsim数据CSV文件大小为1.5G左右,一共11,850,526行。下面以ngsim数据为例,介绍我遇到的问题及解决办法。

问题一:Excel直接打开数据行列未分开。如图1.1所示。

图1.1

 

 

解决办法

1. 新建Excel工作表,点击数据、自文本,然后选择CSV文件导入,如图1.2。此时会弹出文本导入向导对话框,如图1.3。

图1.2

 

图1.3

2. 选中分隔符号,导入起始行设为1,勾选数据包含标题,如图1.4所示。

图1.4

 

 

3. 勾选分隔符号,下面会有预览,如图1.5。

图1.5

 

 

4. 点击预览中的某一列,可以设置列数据格式,设置完后点击完成。如图1.6.

图1.6

 

 

5. 选择数据的放置位置,然后点击确定。如图1.7。

图1.7

 

 

6. 发现提示无法放入一个表格中,先点击确定。如图1.8行列已分开。

图1.8

 

 

问题二:数据超出一个Excel工作表行数限制,未完全加载。

解决办法CSV分割。

使用CSV分割器,无需安装,双击打开即可。只需选择需要分割的文件和想要分割的行数,即可一键分割。如图1.9.

图1.9

 

 

分割完后,再按照问题一的解决方法将CSV文件导入Excel表格,然后用Excel表格对数据进行必要的处理。

CSV分割器下载链接:https://download.csdn.net/download/qq_43080446/12034382

问题三:如何确定CSV文件有多少行?由于CSV文件行数过多时,Excel表格不能完全显示。

解决办法

1. 使用Visual Studio打开,可以看到CSV文件的总行数。

2. 使用Matlab导入数据,如图2.0。可能会卡顿,不太建议。

图2.0

 

 

3. 其他文本处理软件,如notepad++等。

问题四:如何快速合并多个CSV文件为一个?

解决办法

1. 快捷键win+R调出运行窗口,输入cmd调出命令窗口。

2. 输入cd /d 多个 CSV文件所在的文件夹路径[2]。如图2.1.

图2.1

 

 

3. 输入copy *.csv all.csv ,即可将所有的csv文件复制到一个文件里边[3]。如图2.2.

图2.2

 

4. 也可以参考https://blog.csdn.net/weixin_39664337/article/details/99679656的方法。

参考文献

  1. https://baike.baidu.com/item/CSV/10739?fr=aladdin
  2. https://jingyan.baidu.com/article/20b68a888ab6b7796cec62ac.html
  3. https://jingyan.baidu.com/article/948f5924d44fa7d80ff5f909.html

 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值