Linux 下文件Non-ISO extended-ASCII编码问题

最新推荐文章于 2024-04-24 10:12:26 发布

NIITYZU

最新推荐文章于 2024-04-24 10:12:26 发布

阅读量2.5w

点赞数 3

分类专栏： Linux基础学习

本文链接：https://blog.csdn.net/niityzu/article/details/42494477

版权

Linux基础学习专栏收录该内容

3 篇文章 0 订阅

订阅专栏

Linux下，有时候我们需要将文件转换为另外一种编码格式，如UTF-8，这个时候我们可以使用iconv工具转换，但是如果遇到不确定的编码，在转换的时候就很麻烦，比如Non-ISO extended-ASCII。现有一个文件SogouQ.mini，查看其编码如下：

[hadoopUser@secondmgt data]$ file SogouQ.mini 
SogouQ.mini: Non-ISO extended-ASCII English text, with very long lines

如果直接转换会报以下错误

[hadoopUser@secondmgt data]$ iconv  -t UTF-8 SogouQ.mini >log.txt
iconv: illegal input sequence at position 48

这时候我们可以使用以下方式一个一个查找其源编码

$ iconv --list | sed 's/\/\/$//' | sort > encodings.list
$ for a in `cat encodings.list`; do
  printf "$a  "
  iconv -f $a -t UTF-8 systeminfo.txt > /dev/null 2>&1 \
    && echo "ok: $a" || echo "fail: $a"
done | tee result.txt

遍历result.txt文件中，查找尝试那些没有fail的编码方式。最后-f CP850 -t UTF-8对我的文件正好。使用如下命令转换：

iconv -f CP850 -t UTF-8 SogouQ.mini >SogouQueryLog.txt

查看转换后的文件编码：

[hadoopUser@secondmgt data]$ file SogouQueryLog.txt 
SogouQueryLog.txt: UTF-8 Unicode English text, with very long lines

由结果可知：转换成功！

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

NIITYZU

关注关注

3
点赞
踩
16

收藏

觉得还不错? 一键收藏
4
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

linux常用命令-part3

chinayuan的专栏

05-01

2万+

中文怎么发音 Ubuntu 有奔头，乌版图 Fedora 费德勒，菲朵拉 Debian 迪扁，德槟 CentOS 桑托斯森头斯 Linux发展历史: 1) RedHat ---> 1.RedHat 2.CentOS 3.Fedora 桌面图形系统 rpm, yum 命令 2)

linux常用命令-part2

最新发布

酒无忧的博客

04-24

914

总的来说，ISO CAN FD和非ISO CAN FD在技术实现和标准化程度上存在差异，选择哪一种标准往往取决于具体的应用场景和兼容性需求。随着ISO 11898-1:2015标准的推广和应用，ISO CAN FD逐渐成为主流的CAN FD实现方式。ISO CAN FD和非ISO CAN FD（也称为Bosch CAN FD）是两种不同的CAN FD协议标准。它们之间的主要区别在于它们在设计和实现时所遵循的规范不同。

详解Non-ASCII character ‘\xe6‘

牛肉胡辣汤

02-06

1886

计算机使用ASCII码（American Standard Code for Information Interchange）来表示字符。ASCII码只包含128个字符，包括英文字母、数字和一些特殊字符。然而，对于其他语言中的字符（如中文、日文、德文等），ASCII码是不够用的。为了支持更多的字符，出现了各种字符编码标准，如UTF-8、UTF-16、GB2312等。这些编码标准可以用来表示更多字符的集合，其中Non-ASCII字符就是指那些不属于ASCII码范围内的字符。

鸟哥的Linux私房菜（基础学习篇第四版）学习笔记

hutianwei7的博客

12-07

5507

鸟哥的Linux私房菜（基础学习篇第四版）学习笔记目录零、第零章-计算机概论0.1 电脑：辅助人脑的好工具0.1.1 电脑硬件的五大单元-pg40.1.6 电脑上面常用的计量单位-pg8 零、第零章-计算机概论写在正文前，为非计算机专业的人提供一个提前的知识整理机会。 0.1 电脑：辅助人脑的好工具 0.1.1 电脑硬件的五大单元-pg4 电脑的五大组成单元：输入单元、输出单元、CPU内部的控制单元、算术逻辑单元和内存。 0.1.6 电脑上面常用的计量单位-pg8 0/1这个二进制的单位我们称为位

Linux 私房菜笔记（完结）

qq_57065913的博客

03-14

3840

目录第一章计算机概论第一章计算机概论

OpenRisc-51-基于orpsoc,linux的sd card controller的驱动程序

Rill的专栏

09-23

4375

引言前一段时间，我们分别在eCos和linux上实现了ORPSoC中的sd卡控制器的基本操作。在eCos上实现了完整的，支持文件系统的driver，在linux上，也实现了基本的IO操作，但是还没有实现基于文件系统的操作，本小节就解决这个问题。关于之前我们所做的工作，请参考：OpenRisc-30-SD card controller模块分析与验证：http://blog.csdn.net/ril

ubuntu修改文件编码格式为UTF-8

weixin_43856994的博客

06-20

3464

文件编码格式修改为UTF-8： (1)查看编码格式：file 文件路径；出现Non-ISO extended-ASCII text（未知编码格式）； (2)解决方案：不用管文件原来是什么格式，直接将文件另存为，编码格式改为UTF-8即可。 ...

解决编码问题追踪

小屋

04-26

2165

背景：现有的文件编码类型是“UTF-8 Unicode text”类型的，但是需要文件的类型是“ISO-8859 text, with CRLF line terminators”的在这样的需求之下并不能直接将文件类型转换成“ISO-8859”类型，ISO-8859有ISO-8859-1,ISO-8859-2,.....,ISO-8859-9多个形式，无法直接转成ISO-8859。 ...

linux下大文件编码转码及将oracle中数据导入mysql

tianxiagongzheng的专栏

05-13

1487

这篇文章有不少废话，只是为了发泄一下。如果读者找需要解决的问题的办法，直接无视这些废话。本文章为原创，转载文章请注明出处： http://blog.csdn.net/tianxiagongzheng/article/details/71812876 最近做的项目要将Oracle中数据导入Mysql，数据量约有两千万条，庆幸的是只...

win、py、notepad++的编码方式及问题

一些有的没的

07-09

9950

win、py、notepad++的编码方式及问题先说结论：因为win的cmd默认使用的编码方式是gbk(ANSI) 所以遇到bat或者python中的中文需要在cmd中print显示时，如果出现乱码，首先需要检查是否因为不是 1. gbk编码的中文或2. 在代码中被转换为gbk编码或3. 在python代码中是unicode对象。别在win下用自带的文本文档编辑器打开utf-8编码的文件并保存

「Linux」- 识别文件编码、转换文件编码 @20210213

k4nz

02-13

442

问题描述当我们使用编辑器打开文件时，文件有时候会显示为乱码，也就是说编辑器没有使用正确的编码方式打开文件。此时，我们则需要切换编辑器的编码方式，使用正确的编码方式打开文件。但是，我们应该如何得知文件的正确编码呢？（除了被告知以外）该笔记将记录：在 Linix 中，如何获取文件的编码方式，以及如何进行文件编码转换。问题原因直接获取文件的编码是不太可能的。虽然文件头可能暗示了文件编码（但其实并没有类似的规范），但也有例外。例如，以 0xEF,0xBB,0xBF 开头的可能是 UTF-8 编.

iconv转utf8乱码 linux,linux - iconv对UTF-8的任何编码 - Ubuntu问答

weixin_39907157的博客

05-12

433

问题描述我试图将iconv指向目录，并且无论当前编码如何，所有文件都将转换为UTF-8我正在使用此脚本，但您必须指定要使用的编码。如何使其自动检测当前编码？#!/bin/bashICONVBIN='/usr/bin/iconv' # path to iconv binaryif [ $# -lt 3 ]thenecho "$0 dir from_charset to_charset"exitfif...

HTML与ASCII码表

weixin_33887443的博客

01-31

360

Standard ASCII set, HTML Entity names, ISO 10646, ISO 8879, ISO 8859-1 Latin alphabet No. 1Browser support: All browsers ASCII HTML HTML Dec Hex Symbol Number Name D...

vi显示Non-ISO extended-ASCII text中文

05-30

如果 vi 显示 "Non-ISO extended-ASCII text"，表示文件编码格式不是标准的 ISO-8859-1 或 ASCII 编码，而是一种扩展的 ASCII 编码格式。这种编码格式通常用于在不支持 Unicode 编码的系统中显示国际字符集，但是在现代的操作系统中，这种编码格式已经很少使用了，因此 vi 可能无法正确识别和显示其中的中文字符。为了正确显示 "Non-ISO extended-ASCII text" 格式的文件中的中文字符，可以尝试以下方法： 1. 指定文件编码格式：可以通过 -c 参数在打开文件时指定编码格式，例如： ``` vi -c 'set fileencoding=gbk' filename ``` 这样 vi 将会以 gbk 编码格式打开文件，可以正确显示其中的中文字符。 2. 转换文件编码格式：可以使用 iconv 命令将文件编码格式转换为 UTF-8 格式，例如： ``` iconv -f gbk -t utf-8 filename > newfile ``` 这样会将 filename 文件的编码格式从 gbk 转换为 utf-8，并将转换后的内容保存到 newfile 文件中，然后就可以使用 vi 正确显示其中的中文字符了。以上方法中，第一种方法是直接指定文件编码格式，第二种方法是将文件编码格式转换为通用的 UTF-8 格式，可以根据具体情况选择合适的方法。