C++中文字符处理

一、中文字符串

  • 问题来源:
    中文字符长度不固定,按字节处理往往出现乱码或错误分割。在unicode中每个中文为2个字节,而中文中间夹杂的英文和半角标点则仍然是1个字节。
  • 解决方案:
    构造三层逻辑结构:输入层、逻辑处理层、输出层。
    – 输入层接收char输入,并将其转换为wchar.
    – 逻辑处理层在 wchar* 或 wstring 的基础上进行字符串操作,此时操作最小单位为中文字符,不会再有乱码。
    – 输出层将wchar的结果再次转换为char ,返回给外部。
    这样,对外部来说,仍然是输入char*, 输出char*, 但在这个过程中不再有分割汉字的操作或乱码。
#include <iostream>
#include <string>
using namespace std;

wchar_t* MBCS2Unicode(wchar_t * buff, const char * str)

{

    wchar_t * wp = buff;

    char * p = (char *)str;

    while (*p)

    {

        if (*p & 0x80)

        {

            *wp = *(wchar_t *)p;

            p++;

        }

        else {

            *wp = (wchar_t)*p;

        }

        wp++;

        p++;

    }

    *wp = 0x0000;

    return buff;

}

char * Unicode2MBCS(char * buff, const wchar_t * str)

{

    wchar_t * wp = (wchar_t *)str;

    char * p = buff, *tmp;

    while (*wp) {

        tmp = (char *)wp;

        if (*wp & 0xFF00) {

            *p = *tmp;

            p++; tmp++;

            *p = *tmp;

            p++;

        }

        else {

            *p = *tmp;

            p++;

        }

        wp++;

    }

    *p = 0x00;

    return buff;

}

wstring str2wstr(string str)

{

    size_t len = str.size();

    wchar_t * b = (wchar_t *)malloc((len + 1) * sizeof(wchar_t));

    MBCS2Unicode(b, str.c_str());

    wstring r(b);

    free(b);

    return r;

}

int wputs(const wchar_t * wstr);

int wputs(wstring wstr)

{

    wputs(wstr.c_str());

    return 0;

}

int wputs(const wchar_t * wstr)

{
    int len = wcslen(wstr);

    char * buff = (char *)malloc((len * 2 + 1) * sizeof(char));

    Unicode2MBCS(buff, wstr);

    printf("%s", buff);

    free(buff);

    return 0;

}

string wstr2str(wstring wstr)

{

    size_t len = wstr.size();

    char * b = (char *)malloc((2 * len + 1) * sizeof(char));

    Unicode2MBCS(b, wstr.c_str());

    string r(b);

    free(b);

    return r;



int main()

{

    //输入层:接收char*输入,并将其转换为wchar*

    string input = "今天你在武汉!!";

    string temp = "在";

    //逻辑层在whcar*或wstring的基础上进行字符串操作,此时操作最小单位为中文字符,不会再有乱码。

    wstring buff = str2wstr(input);

    wstring temp_buff = str2wstr(temp);

    cout << "input的中文个数:"<<wcslen(buff.c_str()) << "   temp的中文个数:" << wcslen(temp_buff.c_str()) << endl;

    cout << "判断input第三个是否是'在':" << (buff[3] == temp_buff[0]) << endl;;

    //输出层将wchar*的结果再次转换为char*,返回给外部

    wputs(buff);

    return 0;

}

二、c++几种编码之前的转换

.h

#pragma once  
#include "stdafx.h"  
#include "windows.h"  
#include <iostream>  
#include <string>  
using namespace std;  
  
//**************string******************//  
// ASCII与Unicode互转  
wstring AsciiToUnicode(const string& str);  
string  UnicodeToAscii(const wstring& wstr);  
// UTF8与Unicode互转  
wstring Utf8ToUnicode(const string& str);  
string  UnicodeToUtf8(const wstring& wstr);  
// ASCII与UTF8互转  
string  AsciiToUtf8(const string& str);  
string  Utf8ToAscii(const string& str);  
string Utf8ToAnsi(const char* su8);
//**************CString******************//  
// ASCII与Unicode互转  
CStringW    AsciiToUnicode_CSTR(const CStringA& str);  
CStringA    UnicodeToAscii_CSTR(const CStringW& wstr);  
// UTF8与Unicode互转  
CStringW    Utf8ToUnicode_CSTR(const CStringA& str);  
CStringA    UnicodeToUtf8_CSTR(const CStringW& wstr);  
// ASCII与UTF8互转  
CStringA    AsciiToUtf8_CSTR(const CStringA& str);  
CStringA    Utf8ToAscii_CSTR(const CStringA& str);  
/************string-int***************/  
// string 转 Int  
int StringToInt(const string& str);  
string IntToString(int i);  
string IntToString(char i);  
string IntToString(double i);  

.cpp

#pragma once  
#include "stdafx.h"  
#include "UTN.h"  
  
wstring AsciiToUnicode(const string& str) {  
    // 预算-缓冲区中宽字节的长度    
    int unicodeLen = MultiByteToWideChar(CP_ACP, 0, str.c_str(), -1, nullptr, 0);  
    // 给指向缓冲区的指针变量分配内存    
    wchar_t *pUnicode = (wchar_t*)malloc(sizeof(wchar_t)*unicodeLen);  
    // 开始向缓冲区转换字节    
    MultiByteToWideChar(CP_ACP, 0, str.c_str(), -1, pUnicode, unicodeLen);  
    wstring ret_str = pUnicode;  
    free(pUnicode);  
    return ret_str;  
}  
string UnicodeToAscii(const wstring& wstr) {  
    // 预算-缓冲区中多字节的长度    
    int ansiiLen = WideCharToMultiByte(CP_ACP, 0, wstr.c_str(), -1, nullptr, 0, nullptr, nullptr);  
    // 给指向缓冲区的指针变量分配内存    
    char *pAssii = (char*)malloc(sizeof(char)*ansiiLen);  
    // 开始向缓冲区转换字节    
    WideCharToMultiByte(CP_ACP, 0, wstr.c_str(), -1, pAssii, ansiiLen, nullptr, nullptr);  
    string ret_str = pAssii;  
    free(pAssii);  
    return ret_str;  
}  
wstring Utf8ToUnicode(const string& str) {  
    // 预算-缓冲区中宽字节的长度    
    int unicodeLen = MultiByteToWideChar(CP_UTF8, 0, str.c_str(), -1, nullptr, 0);  
    // 给指向缓冲区的指针变量分配内存    
    wchar_t *pUnicode = (wchar_t*)malloc(sizeof(wchar_t)*unicodeLen);  
    // 开始向缓冲区转换字节    
    MultiByteToWideChar(CP_UTF8, 0, str.c_str(), -1, pUnicode, unicodeLen);  
    wstring ret_str = pUnicode;  
    free(pUnicode);  
    return ret_str;  
}  

string Utf8ToAnsi(const char* su8){
	int wcsLen = ::MultiByteToWideChar(CP_UTF8, NULL, su8, strlen(su8), NULL, 0);
	wchar_t* wszMultiByte = new wchar_t[wcsLen+1];
	::MultiByteToWideChar(CP_UTF8, NULL, su8, strlen(su8), wszMultiByte, wcsLen);
	
	int ansiLen = ::MultiByteToWideChar(CP_UTF8, NULL, wszMultiByte, wcsLen(wszMultiByte), NULL, 0, NULL, NULL);
	char* szAnsi = new char[ansiLen + 1];
	szAnsi[ansiLen] = '\0';
	::MultiByteToWideChar(CP_UTF8, NULL, wszMultiByte, wcsLen(wszMultiByte), szAnsi, ansiLen, NULL, NULL);
	string = szAnsi;
	delete[] szAnsi;
	delete[] wszMultiByte;
	
	return s;
}
string UnicodeToUtf8(const wstring& wstr) {  
    // 预算-缓冲区中多字节的长度    
    int ansiiLen = WideCharToMultiByte(CP_UTF8, 0, wstr.c_str(), -1, nullptr, 0, nullptr, nullptr);  
    // 给指向缓冲区的指针变量分配内存    
    char *pAssii = (char*)malloc(sizeof(char)*ansiiLen);  
    // 开始向缓冲区转换字节    
    WideCharToMultiByte(CP_UTF8, 0, wstr.c_str(), -1, pAssii, ansiiLen, nullptr, nullptr);  
    string ret_str = pAssii;  
    free(pAssii);  
    return ret_str;  
}  
string AsciiToUtf8(const string& str) {  
    return UnicodeToUtf8(AsciiToUnicode(str));  
}  
string Utf8ToAscii(const string& str) {  
    return UnicodeToAscii(Utf8ToUnicode(str));  
}  
// ASCII与Unicode互转  
CStringW    AsciiToUnicode_CSTR(const CStringA& str) {  
    return AsciiToUnicode(LPCSTR(str)).c_str();  
}  
CStringA    UnicodeToAscii_CSTR(const CStringW& wstr) {  
    return UnicodeToAscii(LPCWSTR(wstr)).c_str();  
}  
// UTF8与Unicode互转  
CStringW    Utf8ToUnicode_CSTR(const CStringA& str) {  
    return Utf8ToUnicode(LPCSTR(str)).c_str();  
}  
CStringA    UnicodeToUtf8_CSTR(const CStringW& wstr) {  
    return UnicodeToUtf8(LPCWSTR(wstr)).c_str();  
}  
// ASCII与UTF8互转  
CStringA    AsciiToUtf8_CSTR(const CStringA& str) {  
    return UnicodeToUtf8_CSTR(AsciiToUnicode_CSTR(str));  
}  
CStringA    Utf8ToAscii_CSTR(const CStringA& str) {  
    return UnicodeToAscii_CSTR(Utf8ToUnicode_CSTR(str));  
}  
// string 与 Int 互转  
int StringToInt(const string& str) {  
    return atoi(str.c_str());  
}  
string IntToString(int i) {  
    char ch[1024];  
    memset(ch, 0, 1024);  
    sprintf_s(ch, sizeof(ch), "%d", i);  
    return ch;  
}  
string IntToString(char i) {  
    char ch[1024];  
    memset(ch, 0, 1024);  
    sprintf_s(ch, sizeof(ch), "%c", i);  
    return ch;  
}  
string IntToString(double i) {  
    char ch[1024];  
    memset(ch, 0, 1024);  
    sprintf_s(ch, sizeof(ch), "%f", i);  
    return ch;  
}  
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值