利用UNICODE－ANSI转化，分解字符串，找到字符串中的汉字（宽字符）

最新推荐文章于 2024-11-03 12:03:00 发布

penguinhehe

最新推荐文章于 2024-11-03 12:03:00 发布

阅读量1.3k

点赞数

分类专栏： VC++/MFC/STL 文章标签： string null delete 测试

本文链接：https://blog.csdn.net/penguinhehe/article/details/332983

版权

VC++/MFC/STL 专栏收录该内容

5 篇文章 0 订阅

订阅专栏

看到很多网友分解字符串找到汉字（日本子。。。）使用的方法是比较字符的值，这样做可以，但有两个问题：1必须知道汉字的起始值，2当有简体中文，繁体中文，日文或更多混合时，不易判断。

我使用的方法是，通过UNICODE－ANSI转换，找到宽字符。

说明：我们可以利用UNICODE和ANSI的转化，找到字符串中的汉字
原理：一个汉字、拉丁字母或数字在UNICODE(WCHAR) 中都占一个字符，而ANSI(CHAR)中汉字占2个字符，而拉丁字母或数字占一个字符，利用这一点，可以分解汉字（宽字符）。

//测试方法

void CTestDlg::OnButton1()
{
CString aa = "9494858中都占一个字符??acx";
CString strMulti , strWide;
InterceptString(aa,strMulti , strWide);
AfxMessageBox(strMulti);
AfxMessageBox(strWide);
}

//strSource : the source string
//strMultiChar : the multi string
//strWideChar : the Wide string
BOOL CTestDlg::InterceptString(CString strSource , CString &strMultiChar , CString& strWideChar)
{
strMultiChar = "";
strWideChar = "";

strSource.TrimLeft();
strSource.TrimRight();
int nLength = strSource.GetLength();

//创建宽字节字符串指针，将原字符串转化为 UNICODE 形式
LPWSTR lpwszWide = new WCHAR[nLength + 1];
ZeroMemory(lpwszWide , (nLength+ 1) * sizeof(WCHAR));
#ifdef UNICODE
wcscpy(lpwszWide , strSource);
#else
MultiByteToWideChar( CP_ACP, 0, strSource,
nLength + 1, lpwszWide, nLength + 1);
#endif

int nWideLen = wcslen(lpwszWide);
WCHAR wszTemp[2];
CHAR szTemp[3];

//检验每一个UNICODE字符，将该字符转化为ANSI形式
//根据长度判断是否是汉字（日本...）
for (int i = 0 ; i < nWideLen ; i++)
{
  ZeroMemory(wszTemp , 2 * sizeof(WCHAR));
  wcsncpy(wszTemp , lpwszWide + i , 1);

  ZeroMemory(szTemp , 3);
  WideCharToMultiByte(CP_ACP, WC_COMPOSITECHECK,
     wszTemp, -1,szTemp, 3,NULL, NULL);

  int n = strlen(szTemp);
  switch(n)
  {
  case 1:
   strMultiChar += szTemp;
   break;
  case 2:
   strWideChar += wszTemp;
   break;
  default:
   {
    ASSERT(FALSE);
    return FALSE;
   }
  }
}

delete [] lpwszWide;
return TRUE;
}