今天学习利用hive分析搜狗实验室数据,因为8859格式在Linux上会产生乱码,所以用iconv命令进行转码,转码时候遇到这样一个错误导致转换停止,“未知2106143处的非法输入序列”,可能文件有非法字符,这里用 -c 参数可以忽略掉无效字符 iconv -c -f gbk -t utf8 SogouLabDic.dic