Ansi与Unicode编码的转换及占用字节数

①、Ansi与Unicode简要说明及各自的优缺点:


他们是两种字符的编码格式,Ansi=窄字节,Unicode=宽字节,Ansi用char格式表示一个字符,占用一个字节的存储空间,最多表示255个字符,表示英文还可以,但对于中文、日文、韩文等语言来说就不够用了,所以如果你的程序是Ansi编码的话,那么你写的中文语言的程序拿到日文、韩文等系统上面就会出现乱码。所以有了Unicode,用二个字节去表示一个字符,被定义成 wchar_t 格式这样就可以表示世界上绝大多数的语言了!但有利就有弊,缺点呢? 就是空间占用翻倍了,网络传输的数据量也增大了……

 

  Ansi 窄字节,Unicode宽字节   

  Unicode可以表示世界上的大多数语言,国际化。但是占用两个字节,网络传输不方便。

 

②、不同编码格式下的字符串处理及相互转化:

         /************************************************************************/
	/* ANSI 窄字节
	/************************************************************************/
	/*
	char a_char_1[10] = "MFC";
	char *a_char_2 = "MFC";
	PCHAR a_char_3 = "MFC";
	PSTR a_char_4 = "MFC";
	PCSTR a_char_5 = "MFC";
	LPSTR a_char_6 = "MFC";
	LPCSTR a_char_7 = "MFC";
	*/

	/************************************************************************/
	/* UNICODE 宽字节
	/************************************************************************/
	/*
	wchar_t w_char_1[10] = L"MFC";
	wchar_t *w_char_2 = L"MFC";
	WCHAR *w_char_3 = L"MFC";
	PWCHAR w_char_4 =  L"MFC";
	PWSTR w_char_5 =  L"MFC";
	LPWSTR w_char_6 =  L"MFC";
	LPCWSTR w_char_7 =  L"MFC";
	*/
	/************************************************************************/
	/* T 通用类型                                           
	/************************************************************************/
	/*
	TCHAR t_char_1[10] = _T("MFC");
	PTSTR t_char_2 = _T("MFC");
	LPTSTR t_char_3 = _T("MFC");
	LPCTSTR t_char_4 = _T("MFC");
	*/
	

	


   以上,其中:P代表指针的意思,STR代表字符串的意思,L是长指针的意思,C代表const常量的意思,W代表wide宽字节的意思,T可以理解为通用类型的意思.

不同编码格式下的字符串处理及相互转化:

         /************************************************************************/
	/* 1:窄字节转换成宽字节(使用系统API函数)
	/* 2:宽字节转成窄字节 (使用系统API函数)
	/************************************************************************/
	/*
	char  *mChar = "MFC";
	TCHAR *mResult = AnsiToWideChar(mChar);
	delete []mResult;
	*/
	
	/*
	TCHAR *mChar = L"MFC";
	char *mResult = WideCharToAnsi(mChar);
	delete []mResult;
	*/

char *WideCharToAnsi(wchar_t *pWideChar)
{
	if(!pWideChar) return NULL;
	char *ansiChar = NULL;
	int needChar = WideCharToMultiByte(CP_ACP,0,pWideChar,-1, NULL, 0, NULL, NULL);
	if (needChar > 0)
	{
		needChar += 1;
		ansiChar = new char[needChar];
		ZeroMemory(ansiChar,needChar);
		WideCharToMultiByte(CP_ACP,0,pWideChar,-1, ansiChar, needChar, NULL, NULL);
	}
	return ansiChar;
}

wchar_t *AnsiToWideChar(char *pChar)
{
	if(!pChar) return NULL;
	wchar_t *wideChar = NULL;
	int needChar = MultiByteToWideChar(CP_ACP, 0, pChar, -1, NULL, 0);
	if (needChar > 0)
	{
		needChar += 1;
		wideChar = new wchar_t[needChar];
		ZeroMemory(wideChar, needChar*sizeof(wchar_t));
		MultiByteToWideChar(CP_ACP, 0, pChar, -1, wideChar, needChar);
	}
	return wideChar;
}


 

④、A2W、W2A、T2A、T2W 宏的使用以及注意事项
 

 char  *mChar = "MFC";
 USES_CONVERSION;
 TCHAR *mResult = A2W(mChar);



不要在一个函数的循环体中使用 A2W 等字符转换宏,可能引起栈溢出

 

⑤、字符串占用字节数:

● Ansi:
char szStr[] = "abc";
占用字节数求法:sizeof(szStr);

char *psz = "defgh";
占用字节数求法:strlen(psz)*sizeof(char);

● Unicode:
wchar_t szwStr[] = L"abc";
占用字节数求法:sizeof(szwStr);

wchar_t *pwsz = L"defgh";
占用字节数求法:wcslen(pwsz)*sizeof(wchar_t);

● 通用函数:
TCHAR szStr[] = _T("abc");
占用字节数求法:sizeof(szStr);

TCHAR *psz = _T("defgh");
占用字节数求法:_tcslen(psz)*sizeof(TCHAR);

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
内容简介 本书以问答的形式组织内容,讨论了学习或使用C语言的过程中经常遇到的一些问题。书中列出了C用户经常问的400多个经典问题,涵盖了初始化、数组、指针、字符串、内存分配、库函数、C预处理器等各个方面的主题,并分别给出了解答,而且结合代码示例阐明要点。 本书结构清晰,讲解透彻,是各高校相关专业C语言课程很好的教学参考书,也是各层次C程序员的优秀实践指南。 全球C语言程序员集体智慧的结晶;Amazon全五星图书;权威解答495个最常遇到的C语言问题。C是一门简洁精妙的语言,掌握基本语法容易,真正能够自如运用,就不那么简单了。你难免会遇到各种各样的问题,有些可能让你百思不得其解,甚至翻遍图书馆,也找不到问题的答案。《你必须知道的495个C语言问题》的出版填补了这一空白。许多知识点的阐述都是其他资料中所没有的,弥足珍贵。涵盖C99标准。 第1章 声明和初始化 C语言的声明语法本身实际上就是一种小的编程语言。一个声明包含如下几个部分(但是并非都必不可少):存储类型、基本类型、类型限定词和最终的声明符(也可能包含初始化列表)。每个声明符不仅声明一个新的标识符,同时也表明标识符是数组、指针、函数还是其他任意的复杂组合。基本的思想是让声明符模仿标识符的最终用法。(问题1.21将会更加详细地讨论这种“声明模仿使用”的关系!)  基本类型  让一些程序员惊奇的是,尽管C语言是一种相当低级的语言,但它的类型体系仍然略显抽象。语言本身并没有精确定义基本类型的大小和表示法。  问:我该如何决定使用哪种整数类型?  答:如果可能用到很大的数值(大于32 767或小于一32 767),就使用lon9型。否则,如果空间很重要(例如有很大的数组或很多的结构),就使用short型。除此之外,就用int型。如果定义明确的溢出特征很重要而负值无关紧要,或者希望在操作二进制位和字节时避免符号扩展的问题,请使用对应的unsigned类型。(但是,在表达式中混用有符号和无符号值的时候,要特别注意。参见问题3.21。)尽管字符类型(尤其是unsigned char型)可以当成“小”整数使用,但这样做有时候很麻烦,不值得。编译器需要生成额外的代码来进行char型和int型之间的转换(导致目标代码量增大),而且不可预知的符号扩展也会带来一堆麻烦。(使用unsigned char会有所帮助。类似的问题参见问题12.1。)在决定使用float型还是double型时也有类似的空间/时间权衡。(很多编译器在表达式求值的时候仍然把所有的float型转换为double型进行运算)。但如果一个变量的地址确定且必须为特定的类型时,以上规则就不再适用。很多时候,人们错误地认为C语言类型的大小都有精确的定义。事实上,能够确保的只有如下几点:  …… 目录第1章 声明和初始化 第2章 结构、联合和枚举第3章 表达式第4章 指针第5章 空指针第6章 数组和指针第7章 内存分配 第8章 字符和字符串 第9章 布尔表达式和变量第10章 C预处理器第11章 ANSI/ISO标准C 第12章 标准输入输出库第13章 库函数第14章 浮点运算第15章 可变参数列表第16章 奇怪的问题第17章 风格第18章 工具和资源第19章 系统依赖第20章 杂项术语表 参考文献 

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值