用ultraedit实现编码转换

最新推荐文章于 2025-08-11 16:06:26 发布

转载最新推荐文章于 2025-08-11 16:06:26 发布 · 2w 阅读

C/C++ 同时被 3 个专栏收录

143 篇文章

订阅专栏

程序员

77 篇文章

订阅专栏

LINUX

69 篇文章

订阅专栏

本文详细探讨了 UltraEdit 在处理不同编码（如 Unicode、UTF-8 等）时的 BOM 使用问题，包括新建文件、保存格式、编码检测等常见问题及其解决方法。

BOM
这里涉及到一个BOM(Byte Order Mark) 的概念。简单的讲，在Unicode标准中，为了标示文本文件的编码类型，可以在文本文件的开始插入几个特殊的byte，通过这几个特殊的byte，应用程序就可以鉴别文本文件使用的是那种编码了。那几个特殊的byte也被称之为BOM(参考:http://unicode.org/faq/utf_bom.html )。
对于Unicode，几种编码的BOM如下：
UTF-32, big-endian 文件的前4个byte是：00 00 FE FF
UTF-32, little-endian文件的前4个byte是：FF FE 00 00
UTF-16, big-endian文件的前2个byte是：FE FF
UTF-16, little-endian文件的前2个byte是：FF FE
UTF-8文件的前3个byte是：EF BB BF
UTF-7的规律特殊一点，不是前几个byte，而是所有的byte转换为十进制都小于127。

使用UltraEdit打开一个文本文件，可以不用关心其编码。(Notepad创建的文件的默认编码还是当前code page设定的编码，在简体中文环境下是 CP936，即GBK)。
设定UltraEdit当前的code page：选择 "View -> Set Code Page"，然后选择你需要的code page。这样后面执行的编码转换操作都是根据这里设定的code page进行的。
选择 "Edit -> Hex Function -> Hex Edit" 进入Hex编辑模式，这样你可以输入任意你需要的16进制数字，例如 4E02(Unicode) 或者 8140(GBK) ( "丂" )。
转换：根据你当前的文件的编码，选择 "File -> Conversions -> Unicode to ASCII" 或者 "File -> Conversions -> ASCII to Unicode"，这里的ASCII就是便是当前的 Code Page的编码。
首先需要适当的字体，例如如果你的Windows是简体中文，而你想要转换 Unicode -> Big5，那么你需要 Big5 字体。从http://www.unifont.org/可以下载到很多字体。
即使有了合适的字体也不一定能正确的显示。我将我的系统 code page 设定成 CP950(Big5)，重起后将 UltraEdit 的 Code Page 设定成 CP936，然后转换 GBK <-> Unicode，结果是能够显示 Unicode编码的简体中文字符，而不能显示 GBK 编码的中文字符。估计可能是和字体的处理有关，字体处理如果和当前的 code page 有关的话，这种设定的不一致就会造成无法正确显示。不过在系统code page 是 CP936的情况下在选择了正确的字体后能显示繁体Big5-HKSCS的字符。
从 http://www.microsoft.com/globaldev/reference/WinCP.mspx 可以看到不同 Code Page 的编码转换表。