Linux中利用csvquote处理csv文件

最新推荐文章于 2022-02-08 00:18:24 发布

jerrism

最新推荐文章于 2022-02-08 00:18:24 发布

阅读量920

点赞数

分类专栏： linux python 文章标签： csv linux python

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/jerrism/article/details/108784943

版权

python 同时被 2 个专栏收录

12 篇文章 0 订阅

订阅专栏

5 篇文章 0 订阅

订阅专栏

问题

在linux中处理csv文件时，经常会碰到字段中包含,或\n的问题，这种情况下就不能使用awk、cut等命令处理文件

解决方案

使用csvquote对csv进行预处理。GitHub

csvquote可将csv字段中的,转换为US (unit separator，单元分隔符，ascii码31)，将\n转换为RS (record separator，记录分隔符，ascii码30），这样在使用cut等命令时就能将它们当作普通字符处理了。

注意事项

在使用python处理转换后的文件时，要注意open方法打开文件是默认的newline参数值为None，python官方文档对该参数的解释：

newline 控制 universal newlines 模式如何生效（它仅适用于文本模式）。它可以是 None，’’，’\n’，’\r’ 和 ‘\r\n’。它的工作原理:

从流中读取输入时，如果 newline 为 None，则启用通用换行模式。输入中的行可以以 ‘\n’，’\r’ 或 ‘\r\n’ 结尾，这些行被翻译成 ‘\n’ 在返回呼叫者之前。如果它是 ‘’，则启用通用换行模式，但行结尾将返回给调用者未翻译。如果它具有任何其他合法值，则输入行仅由给定字符串终止，并且行结尾将返回给未调用的调用者。
将输出写入流时，如果 newline 为 None，则写入的任何 ‘\n’ 字符都将转换为系统默认行分隔符 os.linesep。如果 newline 是 ‘’ 或 ‘\n’，则不进行翻译。如果 newline 是任何其他合法值，则写入的任何 ‘\n’ 字符将被转换为给定的字符串。

虽然python文档中只提到了 ‘\n’，’\r’ 或 ‘\r\n’ ，但其实RS字符也会被当作换行符

>>> '1\x1e2\n3\r4\r\n5\n\r6'.splitlines()
['1', '2', '3', '4', '5', '', '6']

所以在处理时需要显式地指定newline参数为文件的原始换行符，如Linux中的\n。

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。