vim对大文件进行编码格式转换

最新推荐文章于 2024-09-13 22:56:42 发布

__Maybe__

最新推荐文章于 2024-09-13 22:56:42 发布

阅读量1.5k

点赞数

分类专栏： Python Linux

本文链接：https://blog.csdn.net/u012733099/article/details/85161482

版权

Python 同时被 2 个专栏收录

7 篇文章 0 订阅

订阅专栏

Linux

2 篇文章 0 订阅

订阅专栏

处理数据集的时候碰到了中文乱码的问题，由于文件较大（4GB），用glogg打开，glogg只支持utf-8和ASCll编码，中文显示为乱码。只能换成数据集中另一个小一点的文件，用notepad++打开，查看其编码方式，显示为GB2312。

尝试用linux iconv命令对编码方式进行转换：

iconv -f gb2312 -t utf-8 file1.txt >file2.txt

报错：

iconv: 未知 87 处的非法输入序列

换成vim以指定的编码格式打开文件：

vim file1.txt -c "e ++enc=GB2312"

文件可以打开，大部分中文正常显示，但仍有一些乱码存在：

"file1.txt" [已转换][第 8 行转换错误][dos]

于是又尝试用python处理。

def ReadByLine(filePath):
    fileHandle = open(filePath,'r')
    i = 0
    for line in fileHandle:
        i += 1
        line_uni = unicode(line, "gb2312")
        print '原文: ', line
        print 'unicode: ', line_uni 
        if i == 100:
            break

依然报错：

UnicodeDecodeError: 'gb2312' codec can't decode bytes in position 10-11: illegal multibyte sequence

在网上找到别人的解决方法：

解决python UnicodeDecodeError: 'gb2312' codec can't decode问题（https://blog.csdn.net/qingyuanluofeng/article/details/46514119 ）

将"gb2312"换成"gbk"，最终所有中文（包括繁体字、特殊字符）都能正常显示。

鉴于python读写处理大文件速度较慢，依然选择linux命令。

vim file1.txt -c "e ++enc=GBK"

终于可以正常打开，只需要修改文件的编码方式并保存即可：

:set fileencoding=UTF-8
:set wq!

用head file1.txt查看，全部正常显示。

再尝试iconv命令：

iconv -f gbk -t utf-8 file1.txt >file2.txt

也能够快速并正确转换。

纠结了这么久，问题出在notepad++显示的文件编码格式有问题，目前尚未找到比较方便的查看文件编码的软件或方法。

__Maybe__

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录