利用UNICODE-ANSI转化,分解字符串,找到字符串中的汉字(宽字符)

  看到很多网友分解字符串找到汉字(日本子。。。)使用的方法是比较字符的值,这样做可以,但有两个问题:1必须知道汉字的起始值,2当有简体中文,繁体中文,日文或更多混合时,不易判断。

  我使用的方法是,通过UNICODE-ANSI转换,找到宽字符。

说明:我们可以利用UNICODE和ANSI的转化,找到字符串中的汉字
原理:一个汉字、拉丁字母或数字在UNICODE(WCHAR) 中都占一个字符,而ANSI(CHAR)中汉字占2个字符,而拉丁字母或数字占一个字符,利用这一点,可以分解汉字(宽字符)。

//测试方法

void CTestDlg::OnButton1()
{
 CString aa = "9494858中都占一个字符??acx";
 CString strMulti , strWide;
 InterceptString(aa,strMulti , strWide);
 AfxMessageBox(strMulti);
 AfxMessageBox(strWide);
}

//strSource : the source string
//strMultiChar : the multi string
//strWideChar : the Wide string
BOOL CTestDlg::InterceptString(CString strSource , CString &strMultiChar , CString& strWideChar)
{
 strMultiChar = "";
 strWideChar = "";

 strSource.TrimLeft();
 strSource.TrimRight();
 int nLength = strSource.GetLength(); 
 
 //创建宽字节字符串指针,将原字符串转化为 UNICODE 形式
 LPWSTR lpwszWide = new WCHAR[nLength + 1];
 ZeroMemory(lpwszWide , (nLength+ 1) * sizeof(WCHAR));
#ifdef UNICODE
 wcscpy(lpwszWide , strSource);
#else
 MultiByteToWideChar( CP_ACP, 0, strSource,
  nLength + 1, lpwszWide, nLength + 1);
#endif


 int nWideLen = wcslen(lpwszWide);
 WCHAR wszTemp[2];
 CHAR szTemp[3];

 //检验每一个UNICODE字符,将该字符转化为ANSI形式
 //根据长度判断是否是汉字(日本...)
 for (int i = 0 ; i < nWideLen ; i++)
 {  
  ZeroMemory(wszTemp , 2 * sizeof(WCHAR));
  wcsncpy(wszTemp , lpwszWide + i , 1);
  
  ZeroMemory(szTemp , 3);
  WideCharToMultiByte(CP_ACP, WC_COMPOSITECHECK,
     wszTemp, -1,szTemp, 3,NULL, NULL);

  int n = strlen(szTemp);
  switch(n)
  {
  case 1:
   strMultiChar += szTemp;
   break;
  case 2:
   strWideChar += wszTemp;
   break;
  default:
   {
    ASSERT(FALSE);
    return FALSE;
   }
  }
 }
 
 delete [] lpwszWide;
 return TRUE;
}

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值