iconv 文件编码转换--知网的情感字典数据

在Mac上打开知网的情感字典出现乱码,原因是文件编码未知。通过后端同学提供的iconv命令,使用-f gbk -t utf-8参数转换编码,成功将乱码文件转为UTF-8格式,解决了问题。了解iconv命令的用法对于处理不同编码的文件十分有用。
摘要由CSDN通过智能技术生成

背景:

下载了知网的情感字典数据,打开的时候是乱码,但是英文的字典数据是可以直接看的,很奇怪。
乱码形式如下: 

原因 :

不知道上传文件的人用什么编码方式,mac默认了utf-8解码方式

解决:

问了一下后端同学,这是怎么回事,后端同学给了我一行命令,成功“破译”了该编码方式。
命令: iconv -f gbk -t utf-8  负面情感词语(中文).txt > de_负面情感词语.txt
将“iconv -f gbk -t utf-8  负面情感词语(中文).txt”得到的转码后的文件写到“de_负面情感词语.txt”文件中,如果没有">"的话,会打印输出在屏幕上。

iconv命令的用法:

iconv [选项...] [文件...]

有如下选项可用:

输入/输出格式规范:
-f, --from-code=名称 原始文本编码
-t, --to-code=名称 输出编码

信息:
-l, --list 列举所有已知的字符集

输出控制:
-c 从输出中忽略无效的字符
-o, --output=FILE 输出文件
-s, --silent 关闭警告
--verbose 打印进度信息

参考:
https://www.cnblogs.com/xuxm2007/archive/2010/11/09/1872379.html

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值