操作系统巴别塔

使用Mac版的Excel导出CSV文件,然后在命令行看该文件,可以充分体现出Windows、Mac、Linux的编码差别。

Windows的汉字是使用UTF16编码的,中文的编码是GB312, GB18030, GBK等。换行符是“CR/LF”(0D0A, "\r\n")

Linux统一使用UTF8编码。换行符是LF(0A,"\n")

Mac上使用UTF8编码。换行符是CR(0D, "\r")

Excel导出的CSV文件在Windows中是以逗号(,)分隔符,在Mac中的版本则是分号(;)。CSV是Comma Seperated Values的缩写,但是并没有形成以逗号分隔的标准。其中一个原因是逗号在德语中是小数点的含义。

要在Mac命令行下看Excel导出的CSV文件,第一步是做编码转换:
$ iconv -c -f GBK -t UTF-8 gbkfile.csv > utf8file.csv

(Mac下的Terminal似乎不能像Linux一样通过改变LANG=GBK来看非UTF8编码的文件)

第二步是换行符转换,这个很头痛,尝试用sed和tr转换均失败,在vi中通过":%s/\r/\n/g"转换,结果是\r全部变成0(我也不确定是不是我用错了正则表达式)。最后使用dos2unix来转换:
$ dos2unix -c mac utf8file.csv

(提示:dos2unix可以通过fink安装)

转载于:https://my.oschina.net/hgneng/blog/72579

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值