看到很多网友分解字符串找到汉字(日本子。。。)使用的方法是比较字符的值,这样做可以,但有两个问题:1必须知道汉字的起始值,2当有简体中文,繁体中文,日文或更多混合时,不易判断。
我使用的方法是,通过UNICODE-ANSI转换,找到宽字符。
说明:我们可以利用UNICODE和ANSI的转化,找到字符串中的汉字
原理:一个汉字、拉丁字母或数字在UNICODE(WCHAR) 中都占一个字符,而ANSI(CHAR)中汉字占2个字符,而拉丁字母或数字占一个字符,利用这一点,可以分解汉字(宽字符)。
//测试方法
void CTestDlg::OnButton1()
{
CString aa = "9494858中都占一个字符??acx";
CString strMulti , strWide;
InterceptString(aa,strMulti , strWide);
AfxMessageBox(strMulti);
AfxMessageBox(strWide);
}
//strSource : the source string
//strMultiChar : the multi string
//strWideChar : the Wide string
BOOL CTestDlg::InterceptString(CString strSource , CString &strMultiChar , CString& strWideChar)
{
strMultiChar = "";
strWideChar = "";
strSource.TrimLeft();
strSource.TrimRight();
int nLength = strSource.GetLength();
//创建宽字节字符串指针,将原字符串转化为 UNICODE 形式
LPWSTR lpwszWide = new WCHAR[nLength + 1];
ZeroMemory(lpwszWide , (nLength+ 1) * sizeof(WCHAR));
#ifdef UNICODE
wcscpy(lpwszWide , strSource);
#else
MultiByteToWideChar( CP_ACP, 0, strSource,
nLength + 1, lpwszWide, nLength + 1);
#endif
int nWideLen = wcslen(lpwszWide);
WCHAR wszTemp[2];
CHAR szTemp[3];
//检验每一个UNICODE字符,将该字符转化为ANSI形式
//根据长度判断是否是汉字(日本...)
for (int i = 0 ; i < nWideLen ; i++)
{
ZeroMemory(wszTemp , 2 * sizeof(WCHAR));
wcsncpy(wszTemp , lpwszWide + i , 1);
ZeroMemory(szTemp , 3);
WideCharToMultiByte(CP_ACP, WC_COMPOSITECHECK,
wszTemp, -1,szTemp, 3,NULL, NULL);
int n = strlen(szTemp);
switch(n)
{
case 1:
strMultiChar += szTemp;
break;
case 2:
strWideChar += wszTemp;
break;
default:
{
ASSERT(FALSE);
return FALSE;
}
}
}
delete [] lpwszWide;
return TRUE;
}