.NET程序读文本文件时的编码问题

最新推荐文章于 2023-06-21 08:00:00 发布

JGood

最新推荐文章于 2023-06-21 08:00:00 发布

阅读量4.2k

点赞数

分类专栏： Python DotNet 文章标签： .net encoding import 语言 google c#

本文链接：https://blog.csdn.net/JGood/article/details/4540466

版权

Python 同时被 2 个专栏收录

49 篇文章 8 订阅

订阅专栏

DotNet

3 篇文章 0 订阅

订阅专栏

　　程序中文本的编码，是一个很烦人的问题。多掌握一些编码方面的知识，在写程序的时候，可以少走一些弯路。

　　在使用.NET应用程序读文本文件的时候，我们很少注意文件编码的问题。因为在大部分情况下，它自己会识别出文件的编码。最简单也是最常用的读文本文件的语句： System.IO.File.ReadAllText(filePath)（默认采用utf-8编码），只要传入文件的路径，基本上可以正确的读出文本的内容。偶尔出现乱码的时候，只要传入默认编码System.Text.Encoding.Default，就可以解决问题。通常.NET程序员（包括我）很少会去关心编码的问题。这里System.Text.Encoding是.NET基类库中表示编码的基类，所有的编码类型都继承它，如：UTF8Encoding, UnicodeEncoding等等。而Default是Encoding类的一个属性，表示操作系统的当前 ANSI 代码页的编码。针对不同语言，不同文化，不同区域的操作系统，该属性值是也是不同的。在我的电脑上，Default表示的是：System.Text.DBCSCodePageEncoding。只要一条很简单的语句就可以获知Default的类型，在IronPython中：print System.Text.Encoding.Default；而在C#中，可以使用Console.WriteLine(System.Text.Encoding.Default)。关于System.Text.DBCSCodePageEncoding，我并没有在MSDN上找到它的定义，但通过google我了解到它是一种表示亚洲地区语言的编码。既然如此，它应该可以识别如：gb2312或gbk编码的文本，而对于unicode或者其他编码的文本，它应该无能为力。但情况“似乎”并不是这样的。下面来试验一下：

　　打开记事本，输入“中国”二字，然后分别另存为不同编码类型的文件。如：utf-8编码的保存为utf-8.txt，ansi编码的保存为ansi.txt，unicode编码的保存为nicode.txt。现在通过System.IO.File来分别读取这三个文件的内容。下面是IronPython的代码：

import System baseDir = r'D://' print System.IO.File.ReadAllText(baseDir + 'utf-8.txt') print '-' * 50 print System.IO.File.ReadAllText(baseDir + 'unicode.txt') print '-' * 50 print System.IO.File.ReadAllText(baseDir + 'ansi.txt')

运行结果为：

结果一

　　System.IO.File.ReadAllText默认采用utf-8来解码文件，它能够正确的解码utf-8格式保存的文件，对于ansi文件，出现乱码，这些都在意料之中，但对于unicode格式保存的文本，它竟然也正确的读出了内容，这一点很让人疑憾。

现在继续我的试验，在读文件的时候，显式的提供文件编码类型：System.Text.Encoding.Default，代码为：

import System baseDir = r'D://' print System.IO.File.ReadAllText(baseDir + 'utf-8.txt', System.Text.Encoding.Default) print '-' * 50 print System.IO.File.ReadAllText(baseDir + 'unicode.txt', System.Text.Encoding.Default) print '-' * 50 print System.IO.File.ReadAllText(baseDir + 'ansi.txt', System.Text.Encoding.Default)

运行结果为：

结果二

　　程序正确的识别出了所有的文本编码。System.Text.Encoding.Default在上面这段程序中是System.Text.DBCSCodePageEncoding类型，它可以识别ansi，那是理所当然，但为什么可以识别utf-8与unicode呢？

　　原因其实很简单：Notepad在保存文件的时候，做了一些手脚，添加了一些附加信息。如：保存为utf-8格式的文件时，notepad会向文本中添加: 0xef, 0xbb, 0xbf，即BOM，而保存为Unicode格式的文件时，会添加0xFE, 0xFF。

　　.NET程序在读文本的时候，它首先会检查一下文本的头，看是否有类似0xef0xbb0xbf的标识，如果有，则按照这些标识所表示的编码格式来解码文本；如果没有这些头信息，则根据传入的编码类型来解码文本。下面来验证一下：

去掉文件头的文本：

用系统默认编码方法来读文本：

baseDir = r'D://' print System.IO.File.ReadAllText(baseDir + 'utf8.txt', System.Text.Encoding.Default) print System.IO.File.ReadAllText(baseDir + 'unicode.txt', System.Text.Encoding.Default)

运行结果：

在没有文件头的情况下，用DBCSCodePageEncoding来解码utf-8与unicode的文本，结果当然是乱码。修改一下程序：

baseDir = r'D://' print System.IO.File.ReadAllText(baseDir + 'utf8.txt') #没有指定编码，默认采用utf-8编码 print System.IO.File.ReadAllText(baseDir + 'unicode.txt', System.Text.Encoding.Unicode)

结果：