关于VS编写记事本与windows自带汉字乱码问题

最新推荐文章于 2024-04-25 16:01:54 发布

OVS98

最新推荐文章于 2024-04-25 16:01:54 发布

阅读量1.4k

点赞数

分类专栏： MFC c++

c++ 同时被 2 个专栏收录

14 篇文章 0 订阅

订阅专栏

MFC

1 篇文章 0 订阅

订阅专栏

学习】VS读取文件或写入文件时出现中文乱码问题
最近我发现我从文本文档中读取文件处理后再存入新文本文档后，只要是有中文的都显示乱码了~~当我把中文去掉后一切又都正常了，而在我处理过程中，很确定没有对中文进行处理。使用记事本打开发现没有乱码现象，但是在VC里显示是乱码，而且原来可以运行的也不能运行了，去掉中文后一切正常。
参考网上的一些资料发现：
操作系统默认编码是大多是ANSI（具体有不同），txt记事本打开文件时默认以系统默认的缺省编码方式打开（中文为GB2312），所以在记事本中打开时显示正常。而VS打开以及新建文件使用的是UTF8编码。所以会出现乱码错误。解决办法很简单:
出现中文时，打开文件请使用：
StreamReader read = new StreamReader(filename, System.Text.Encoding("GB2312"));
或
String strContent=File.ReadAllText(filename,Encoding.GetEncoding("GB2312"));
新建文件请使用：
StreamWriter writer= new StreamWriter(filePath , false, Encoding.GetEncoding("GB2312"));
writer.Write(content);//content为要写入的内容
sw.Flush();
sw.Close();

亲测可用，问题解决！网上找了弄了好久才解决掉。

切记：打开时要用，写入是也要用！莫忘写入时编码！！我就坑在这个上了~莫用UTF8~~没用的……

一下是我找到的网上的一些有关博文，想了解深入可以参考一下！
最近有些朋友总是发现读取文件的时候发现乱码，不过用工具打开一看却是好的。
其实这个问题的罪魁祸首是VS.net的编辑器，在MS下一般文件编辑器（Notepad，ultraedit)都是使用操作系统缺省编码（不同的系统会不同），如在我的英文xp是ANSI，vs.net新建文件的保存以后使用的编码却是UTF8，大概是为了和StreamReader和StreamWriter打开文件缺省得encoding为UTF8保证一致的缘故吧。
为什么我们用工具打开却是好的，那是因为MS的所有编辑器都会根据文件中使用的编码自动使用对应的编码打开文件。
所以总结出来解决问题，首先要看得是这个文件的创建工具（注意是创建程序，而不是文件的缺省打开工具）是哪个在决定使用对应的Encoding打开文件，而不是盲目的尝试各种编码

针对一些windows工具创建的文件可以使用
StreamReader read = new StreamReader(filename, System.Text.Encoding.Default);

vs.net创建的文件可以使用
StreamReader read = new StreamReader(filename);

对于一些网络流如httpresponse的字节流，可以使用其他GB2312

来自
http://www.alixixi.com/Dev/Web/ASPNET/aspnet3/2007/200702068636.html

不少朋友遇到用System.IO.StreamReader读取包含汉字的txt文件时，经常会读出乱码（StreamWriater写文本文件也有类似的问题），原因很简单，就是文件的编码（encoding）和StreamReader/Writer的encoding不对应。
为了解决这个问题，我写了一个类，来取得一个文本文件的encoding，这样我们就可以创建对应的
StreamReader和StreamWriter来读写，保证不会出现乱码现象。其实原理很简单，文本编辑器（比如XP自带的记事
本）在生成文本文件时，如果编码格式和系统默认的编码（中文系统下默认为GB2312）不一致时，会在txt文件开头
部分添加特定的“编码字节序标识（Encoding Bit Order Madk，简写为BOM）”，类似PE格式的"MZ"文件头。这样
它在读取时就可以根据这个BOM来确定该文本文件生成时所使用的Encoding。这个BOM我们用记事本等程序打开默认
是看不到的，但是用stream按字节读取时是可以读到的。我的这个TxtFileEncoding类就是根据这个BOM“文件头”
来确定txt文件生成时用到的编码的。
// 作者：袁晓辉
// 2005-8-8
// // // // // //
using System;
using System.Text;
using System.IO;
namespace Farproc.Text
{
///
/// 用于取得一个文本文件的编码方式(Encoding)。
///
public class TxtFileEncoding
{
public TxtFileEncoding()
{
//
// TODO: 在此处添加构造函数逻辑
//
}
///
/// 取得一个文本文件的编码方式。如果无法在文件头部找到有效的前导符，Encoding.Default将被返回。
///
/// 文件名。
///
public static Encoding GetEncoding(string fileName)
{
return GetEncoding(fileName, Encoding.Default);
}
///
/// 取得一个文本文件流的编码方式。
///
/// 文本文件流。
///
public static Encoding GetEncoding(FileStream stream)
{
return GetEncoding(stream, Encoding.Default);
}
///
/// 取得一个文本文件的编码方式。
///
/// 文件名。
/// 默认编码方式。当该方法无法从文件的头部取得有效的前导符时，将返回该编码方式。
///
public static Encoding GetEncoding(string fileName, Encoding defaultEncoding)
{
FileStream fs = new FileStream(fileName, FileMode.Open);
Encoding targetEncoding = GetEncoding(fs, defaultEncoding);
fs.Close();
return targetEncoding;
}
///
/// 取得一个文本文件流的编码方式。
///
/// 文本文件流。
/// 默认编码方式。当该方法无法从文件的头部取得有效的前导符时，将返回该编码方式。
///
public static Encoding GetEncoding(FileStream stream, Encoding defaultEncoding)
{
Encoding targetEncoding = defaultEncoding;
if(stream != null && stream.Length >= 2)
{
//保存文件流的前4个字节
byte byte1 = 0;
byte byte2 = 0;
byte byte3 = 0;
byte byte4 = 0;
//保存当前Seek位置
long origPos = stream.Seek(0, SeekOrigin.Begin);
stream.Seek(0, SeekOrigin.Begin);

int nByte = stream.ReadByte();
byte1 = Convert.ToByte(nByte);
byte2 = Convert.ToByte(stream.ReadByte());
if(stream.Length >= 3)
{
byte3 = Convert.ToByte(stream.ReadByte());
}
if(stream.Length >= 4)
{
byte4 = Convert.ToByte(stream.ReadByte());
}
//根据文件流的前4个字节判断Encoding
//Unicode {0xFF, 0xFE};
//BE-Unicode {0xFE, 0xFF};
//UTF8 = {0xEF, 0xBB, 0xBF};
if(byte1 == 0xFE && byte2 == 0xFF)//UnicodeBe
{
targetEncoding = Encoding.BigEndianUnicode;
}
if(byte1 == 0xFF && byte2 == 0xFE && byte3 != 0xFF)//Unicode
{
targetEncoding = Encoding.Unicode;
}
if(byte1 == 0xEF && byte2 == 0xBB && byte3 == 0xBF)//UTF8
{
targetEncoding = Encoding.UTF8;
}
//恢复Seek位置
stream.Seek(origPos, SeekOrigin.Begin);
}
return targetEncoding;
}
}
}

由于在GB2312和UTF7编码都没有BOM，所以需要指定一个默认的Encoding，在找不到合法的BOM时，将返回这个
Encoding。有谁知道如何区分GB2312和UTF7编码txt文件的方法，也请告诉我。
由于只是static方法，所以不用new，直接通过类名调用方法，使用起来也很简单。
using System;
using Farproc.Text;
using System.Text;
using System.IO;
namespace ConsoleApplication1
{
///
/// Class1 的摘要说明。
///
class Class1
{
///
/// 应用程序的主入口点。
///
[STAThread]
static void Main(string[] args)
{
//
// TODO: 在此处添加代码以启动应用程序
//
string fileName = @"e:\a.txt";
//生成一个big endian Unicode编码格式的文本文件
StreamWriter sw = new StreamWriter(fileName, false, Encoding.BigEndianUnicode);//你可以试试其他编码，比如Encoding.GetEncoding("GB2312")或UTF8
sw.Write("这是一个String");
sw.Close();

//读取
Encoding fileEncoding = TxtFileEncoding.GetEncoding(fileName, Encoding.GetEncoding("GB2312"));//取得这txt文件的编码
Console.WriteLine("这个文本文件的编码为：" + fileEncoding.EncodingName);
StreamReader sr = new StreamReader(fileName, fileEncoding);//用该编码创建StreamReader

//用下面的方法虽然可以让系统自动判断文本文件的编码格式，但是我们无法取得该文本文件的编码
//sr.CurrentEncoding永远为 Unicode(UTF-8)
//StreamReader sr = new StreamReader(fileName, true);
//Console.WriteLine("这个文本文件的编码为：" + sr.CurrentEncoding.EncodingName);
Console.WriteLine("这个文本文件的内容为：" + sr.ReadToEnd());
sr.Close();
Console.ReadLine();
}
}
}

.NET下的string永远是Unicode的，所以只能判断txt文件的Encoding。对于byte[]，只有自己知道它的
Encoding才能转换为string 转换为其他编码的byte[]，一个例外是把整个txt文件通过stream读入byte[]后也可以根据它的前几个字节判断
Encoding，对于片断，我们就无能为力了:)

来自http://www.lob.cn/jq/aspjq/6885.shtml

在使用C#对文本文件读取的时候，如果其中包含了中文，经常会出现乱码。一般解决是在StreamReader加一个编码，我使用的是Encoding.UTF8，一般情况下使用这个参数就可以。但是，在这次我使用UTF8却无效。而且使用，unicode和UTF32都会使用StreamReader的EndOfStream在读取一行之后，就会变成true。我想原因可能是使用这种编码没有正确读取出换行符，使读取一次之后就到达了文件末尾。

直到后来，看到一片资料，使用Encoding.GetEncoding("gb2312")，就解决了乱码问题。看来需要百度一下gb2312和UTF8的区别。

附：原文：

在对文本文件进行读取的时候，如果其中包含了中文，可能就会有乱码的出现，解决方法很简单。只需要在读取出来的时候StreamReader加一个编码就可以了。代码如下：

using System.IO;

StreamReader sr = new StreamReader(fileName,Encoding.GetEncoding("gb2312"));//fileName为文件的绝对路径

由于C#操作文件的内容网上有很多，我就不详细说明了，下面给出两个函数，分别用来读取和写入文本文件，记得引用System.IO;

///

/// 功能:

/// 在指定的文件filename处生成该文件，并且以内容content来填充。

///

/// 文件名

/// 文件内容

public static void CreateFile(string filename,string content)

{

try

{

//这个构造函数的具体含义：在指定的文件fileName处，第二个参数表示是否将内容追加到文件。如果文件存在，并且第二个参数append为false，那么将改写文件，如果append为true，则在末尾加入内容，如果文件不存在，则创建该文件，并且填充内容。所以就算文件不存在，我们这样创建文本文件也是没有问题的。

StreamWriter sw = new StreamWriter(filename,false,Encoding.GetEncoding("gb2312"));

sw.Write(content);

sw.Flush();

sw.Close();

}

catch(IOException ioe)

{

throw ioe;

}

}

///

/// 功能:

/// 在文件的最前面加入内容content

///

/// 文件名

/// 插入的内容

public static void InsertFile(string filename,string content)

{

try

{

StreamReader sr = new StreamReader(filename,Encoding.GetEncoding("gb2312"));

content += sr.ReadToEnd();

sr.Close();

CreateFile(filename,content);

}

catch(IOException ioe)

{

throw ioe;

}

}

///

/// 功能:

/// 在文件末尾增加指定内容content

///

/// 文件名

/// 新增内容

public static void AppendFile(string filename,string content)

{

try

{

string filecontent = "";

StreamReader sr = new StreamReader(filename,Encoding.GetEncoding("gb2312"));

filecontent += sr.ReadToEnd() + content;//如

来自 http://www.2cto.com/kf/201007/52582.html

OVS98

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
关于VS编写记事本与windows自带汉字乱码问题

学习】VS读取文件或写入文件时出现中文乱码问题 (2013-07-29 16:19:02)转载▼标签：中文乱码 vs读取文件写入文件 gb2312 默认编码分类：学富五车最近我发现我从文本文档中读取文件处理后再存入新文本文档后，只要是有中文的都显示乱码了~~当我把中文去掉后一切又都正常了，而在我处理过程中，很确定没有对中文进行处理。使用记事本打开发现没有乱码现象，但是在VC里显示是
复制链接

扫一扫

专栏目录