一、中文字符串
- 问题来源:
中文字符长度不固定,按字节处理往往出现乱码或错误分割。在unicode中每个中文为2个字节,而中文中间夹杂的英文和半角标点则仍然是1个字节。 - 解决方案:
构造三层逻辑结构:输入层、逻辑处理层、输出层。
– 输入层接收char输入,并将其转换为wchar.
– 逻辑处理层在 wchar* 或 wstring 的基础上进行字符串操作,此时操作最小单位为中文字符,不会再有乱码。
– 输出层将wchar的结果再次转换为char ,返回给外部。
这样,对外部来说,仍然是输入char*, 输出char*, 但在这个过程中不再有分割汉字的操作或乱码。
#include <iostream>
#include <string>
using namespace std;
wchar_t* MBCS2Unicode(wchar_t * buff, const char * str)
{
wchar_t * wp = buff;
char * p = (char *)str;
while (*p)
{
if (*p & 0x80)
{
*wp = *(wchar_t *)p;
p++;
}
else {
*wp = (wchar_t)*p;
}
wp++;
p++;
}
*wp = 0x0000;
return buff;
}
char * Unicode2MBCS(char * buff, const wchar_t * str)
{
wchar_t * wp = (wchar_t *)str;
char * p = buff, *tmp;
while (*wp) {
tmp = (char *)wp;
if (*wp & 0xFF00) {
*p = *tmp;
p++; tmp++;
*p = *tmp;
p++;
}
else {
*p = *tmp;
p++;
}
wp++;
}
*p = 0x00;
return buff;
}
wstring str2wstr(string str)
{
size_t len = str.size();
wchar_t * b = (wchar_t *)malloc((len + 1) * sizeof(wchar_t));
MBCS2Unicode(b, str.c_str());
wstring r(b);
free(b);
return r;
}
int wputs(const wchar_t * wstr);
int wputs(wstring wstr)
{
wputs(wstr.c_str());
return 0;
}
int wputs(const wchar_t * wstr)
{
int len = wcslen(wstr);
char * buff = (char *)malloc((len * 2 + 1) * sizeof(char));
Unicode2MBCS(buff, wstr);
printf("%s", buff);
free(buff);
return 0;
}
string wstr2str(wstring wstr)
{
size_t len = wstr.size();
char * b = (char *)malloc((2 * len + 1) * sizeof(char));
Unicode2MBCS(b, wstr.c_str());
string r(b);
free(b);
return r;
int main()
{
//输入层:接收char*输入,并将其转换为wchar*
string input = "今天你在武汉!!";
string temp = "在";
//逻辑层在whcar*或wstring的基础上进行字符串操作,此时操作最小单位为中文字符,不会再有乱码。
wstring buff = str2wstr(input);
wstring temp_buff = str2wstr(temp);
cout << "input的中文个数:"<<wcslen(buff.c_str()) << " temp的中文个数:" << wcslen(temp_buff.c_str()) << endl;
cout << "判断input第三个是否是'在':" << (buff[3] == temp_buff[0]) << endl;;
//输出层将wchar*的结果再次转换为char*,返回给外部
wputs(buff);
return 0;
}
二、c++几种编码之前的转换
.h
#pragma once
#include "stdafx.h"
#include "windows.h"
#include <iostream>
#include <string>
using namespace std;
//**************string******************//
// ASCII与Unicode互转
wstring AsciiToUnicode(const string& str);
string UnicodeToAscii(const wstring& wstr);
// UTF8与Unicode互转
wstring Utf8ToUnicode(const string& str);
string UnicodeToUtf8(const wstring& wstr);
// ASCII与UTF8互转
string AsciiToUtf8(const string& str);
string Utf8ToAscii(const string& str);
string Utf8ToAnsi(const char* su8);
//**************CString******************//
// ASCII与Unicode互转
CStringW AsciiToUnicode_CSTR(const CStringA& str);
CStringA UnicodeToAscii_CSTR(const CStringW& wstr);
// UTF8与Unicode互转
CStringW Utf8ToUnicode_CSTR(const CStringA& str);
CStringA UnicodeToUtf8_CSTR(const CStringW& wstr);
// ASCII与UTF8互转
CStringA AsciiToUtf8_CSTR(const CStringA& str);
CStringA Utf8ToAscii_CSTR(const CStringA& str);
/************string-int***************/
// string 转 Int
int StringToInt(const string& str);
string IntToString(int i);
string IntToString(char i);
string IntToString(double i);
.cpp
#pragma once
#include "stdafx.h"
#include "UTN.h"
wstring AsciiToUnicode(const string& str) {
// 预算-缓冲区中宽字节的长度
int unicodeLen = MultiByteToWideChar(CP_ACP, 0, str.c_str(), -1, nullptr, 0);
// 给指向缓冲区的指针变量分配内存
wchar_t *pUnicode = (wchar_t*)malloc(sizeof(wchar_t)*unicodeLen);
// 开始向缓冲区转换字节
MultiByteToWideChar(CP_ACP, 0, str.c_str(), -1, pUnicode, unicodeLen);
wstring ret_str = pUnicode;
free(pUnicode);
return ret_str;
}
string UnicodeToAscii(const wstring& wstr) {
// 预算-缓冲区中多字节的长度
int ansiiLen = WideCharToMultiByte(CP_ACP, 0, wstr.c_str(), -1, nullptr, 0, nullptr, nullptr);
// 给指向缓冲区的指针变量分配内存
char *pAssii = (char*)malloc(sizeof(char)*ansiiLen);
// 开始向缓冲区转换字节
WideCharToMultiByte(CP_ACP, 0, wstr.c_str(), -1, pAssii, ansiiLen, nullptr, nullptr);
string ret_str = pAssii;
free(pAssii);
return ret_str;
}
wstring Utf8ToUnicode(const string& str) {
// 预算-缓冲区中宽字节的长度
int unicodeLen = MultiByteToWideChar(CP_UTF8, 0, str.c_str(), -1, nullptr, 0);
// 给指向缓冲区的指针变量分配内存
wchar_t *pUnicode = (wchar_t*)malloc(sizeof(wchar_t)*unicodeLen);
// 开始向缓冲区转换字节
MultiByteToWideChar(CP_UTF8, 0, str.c_str(), -1, pUnicode, unicodeLen);
wstring ret_str = pUnicode;
free(pUnicode);
return ret_str;
}
string Utf8ToAnsi(const char* su8){
int wcsLen = ::MultiByteToWideChar(CP_UTF8, NULL, su8, strlen(su8), NULL, 0);
wchar_t* wszMultiByte = new wchar_t[wcsLen+1];
::MultiByteToWideChar(CP_UTF8, NULL, su8, strlen(su8), wszMultiByte, wcsLen);
int ansiLen = ::MultiByteToWideChar(CP_UTF8, NULL, wszMultiByte, wcsLen(wszMultiByte), NULL, 0, NULL, NULL);
char* szAnsi = new char[ansiLen + 1];
szAnsi[ansiLen] = '\0';
::MultiByteToWideChar(CP_UTF8, NULL, wszMultiByte, wcsLen(wszMultiByte), szAnsi, ansiLen, NULL, NULL);
string = szAnsi;
delete[] szAnsi;
delete[] wszMultiByte;
return s;
}
string UnicodeToUtf8(const wstring& wstr) {
// 预算-缓冲区中多字节的长度
int ansiiLen = WideCharToMultiByte(CP_UTF8, 0, wstr.c_str(), -1, nullptr, 0, nullptr, nullptr);
// 给指向缓冲区的指针变量分配内存
char *pAssii = (char*)malloc(sizeof(char)*ansiiLen);
// 开始向缓冲区转换字节
WideCharToMultiByte(CP_UTF8, 0, wstr.c_str(), -1, pAssii, ansiiLen, nullptr, nullptr);
string ret_str = pAssii;
free(pAssii);
return ret_str;
}
string AsciiToUtf8(const string& str) {
return UnicodeToUtf8(AsciiToUnicode(str));
}
string Utf8ToAscii(const string& str) {
return UnicodeToAscii(Utf8ToUnicode(str));
}
// ASCII与Unicode互转
CStringW AsciiToUnicode_CSTR(const CStringA& str) {
return AsciiToUnicode(LPCSTR(str)).c_str();
}
CStringA UnicodeToAscii_CSTR(const CStringW& wstr) {
return UnicodeToAscii(LPCWSTR(wstr)).c_str();
}
// UTF8与Unicode互转
CStringW Utf8ToUnicode_CSTR(const CStringA& str) {
return Utf8ToUnicode(LPCSTR(str)).c_str();
}
CStringA UnicodeToUtf8_CSTR(const CStringW& wstr) {
return UnicodeToUtf8(LPCWSTR(wstr)).c_str();
}
// ASCII与UTF8互转
CStringA AsciiToUtf8_CSTR(const CStringA& str) {
return UnicodeToUtf8_CSTR(AsciiToUnicode_CSTR(str));
}
CStringA Utf8ToAscii_CSTR(const CStringA& str) {
return UnicodeToAscii_CSTR(Utf8ToUnicode_CSTR(str));
}
// string 与 Int 互转
int StringToInt(const string& str) {
return atoi(str.c_str());
}
string IntToString(int i) {
char ch[1024];
memset(ch, 0, 1024);
sprintf_s(ch, sizeof(ch), "%d", i);
return ch;
}
string IntToString(char i) {
char ch[1024];
memset(ch, 0, 1024);
sprintf_s(ch, sizeof(ch), "%c", i);
return ch;
}
string IntToString(double i) {
char ch[1024];
memset(ch, 0, 1024);
sprintf_s(ch, sizeof(ch), "%f", i);
return ch;
}