1、去掉^M符号
vi编辑下使用ctrl V + ctrl M打出^M符号,然后替换为空即可。(window下^M\n结尾)
%s/^M//g
2、去掉UTF-8文件BOM头
vim下:使用命令
:set nobomb
保存即可
3、格式转换,使用iconv工具:
iconv -f GB18030 -t UTF-8 shanghaihua_corpus.trans -o shanghaihua_corpus_utf8.trans
4、批量去掉utf8 bom头
sed -i 's/^\xEF\xBB\xBF//g' *