字符编码之间的转换

VC中实现GB2312、BIG5、Unicode编码转换的方法

投稿:shichen2014 字体:[ 增加 减小] 类型:转载 时间:2014-07-21

 
这篇文章主要介绍了VC中实现GB2312、BIG5、Unicode编码转换的方法,该功能非常实用,需要的朋友可以参考下
 

本文主要以实例形式讨论了VC编译环境下,实现字符串和文件编码方式转换的方法,在linux下请使用Strconv来实现。具体方法如下:

一、文件编码格式转换

?
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
//GB2312 编码文件转换成 Unicode:
if ((file_handle = fopen (filenam, "rb" )) != NULL)
{
     //从GB2312源文件以二进制的方式读取buffer
     numread = fread (str_buf_pool, sizeof ( char ),POOL_BUFF_SIZE,file_handle);
     fclose (file_handle);
    //GB2312文件buffer转换成UNICODE
    nLen  =MultiByteToWideChar(CP_ACP,0,str_buf_pool,-1,NULL,0); 
    MultiByteToWideChar(CP_ACP,0,str_buf_pool,-1,( LPWSTR )str_unicode_buf_pool,nLen);
    //组装UNICODE Little Endian编码文件文件头标示符"0xFF 0xFE" 
    //备注:UNICODE Big Endian编码文件文件头标示符"0xFF 0xFE" 
    //Little Endian与Big Endian编码差异此处不详述
    unicode_little_file_header[0]=0xFF;
    unicode_little_file_header[1]=0xFE;
    //存储目标文件
    if ((file_handle= fopen (filenewname, "wb+" )) != NULL)
    {
    fwrite (unicode_little_file_header, sizeof ( char ),2,file_handle);
    numwrite = fwrite (str_unicode_buf_pool, sizeof ( LPWSTR ),nLen,file_handle);
    fclose (file_handle);
    }
}

二、字符串编码格式转换

?
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
//GB2312 转换成 Unicode:
wchar_t * GB2312ToUnicode( const char * szGBString)
{
     UINT nCodePage = 936; //GB2312
     int nLength=MultiByteToWideChar(nCodePage,0,szGBString,-1,NULL,0);
     wchar_t * pBuffer = new wchar_t [nLength+1];
     MultiByteToWideChar(nCodePage,0,szGBString,-1,pBuffer,nLength);
     pBuffer[nLength]=0;
     return pBuffer;
}
//BIG5 转换成 Unicode:
wchar_t * BIG5ToUnicode( const char * szBIG5String)
{
     UINT nCodePage = 950; //BIG5
     int nLength=MultiByteToWideChar(nCodePage,0,szBIG5String,-1,NULL,0);
     wchar_t * pBuffer = new wchar_t [nLength+1];
     MultiByteToWideChar(nCodePage,0,szBIG5String,-1,pBuffer,nLength);
     pBuffer[nLength]=0;
     return pBuffer;
}
//Unicode 转换成 GB2312:
char * UnicodeToGB2312( const wchar_t * szUnicodeString)
{
     UINT nCodePage = 936; //GB2312
     int nLength=WideCharToMultiByte(nCodePage,0,szUnicodeString,-1,NULL,0,NULL,NULL);
     char * pBuffer= new char [nLength+1];
     WideCharToMultiByte(nCodePage,0,szUnicodeString,-1,pBuffer,nLength,NULL,NULL);
     pBuffer[nLength]=0;
     return pBuffer;
}
//Unicode 转换成 BIG5:
char * UnicodeToBIG5( const wchar_t * szUnicodeString)
{
     UINT nCodePage = 950; //BIG5
     int nLength=WideCharToMultiByte(nCodePage,0,szUnicodeString,-1,NULL,0,NULL,NULL);
     char * pBuffer= new char [nLength+1];
     WideCharToMultiByte(nCodePage,0,szUnicodeString,-1,pBuffer,nLength,NULL,NULL);
     pBuffer[nLength]=0;
     return pBuffer;
}
//繁体中文BIG5 转换成 简体中文 GB2312
char * BIG5ToGB2312( const char * szBIG5String)
{
     LCID lcid = MAKELCID(MAKELANGID(LANG_CHINESE,SUBLANG_CHINESE_SIMPLIFIED),SORT_CHINESE_PRC);
     wchar_t * szUnicodeBuff = BIG5ToUnicode(szBIG5String);
     char * szGB2312Buff = UnicodeToGB2312(szUnicodeBuff);
     int nLength = LCMapString(lcid,LCMAP_SIMPLIFIED_CHINESE, szGB2312Buff,-1,NULL,0);
     char * pBuffer = new char [nLength + 1];
     LCMapString(0x0804,LCMAP_SIMPLIFIED_CHINESE,szGB2312Buff,-1,pBuffer,nLength);
     pBuffer[nLength] = 0;
      
     delete [] szUnicodeBuff;
     delete [] szGB2312Buff;
     return pBuffer;
}
//简体中文 GB2312 转换成 繁体中文BIG5
char * GB2312ToBIG5( const char * szGBString)
{
     LCID lcid = MAKELCID(MAKELANGID(LANG_CHINESE,SUBLANG_CHINESE_SIMPLIFIED),SORT_CHINESE_PRC);
     int nLength = LCMapString(lcid,LCMAP_TRADITIONAL_CHINESE,szGBString,-1,NULL,0);
     char * pBuffer= new char [nLength+1];
     LCMapString(lcid,LCMAP_TRADITIONAL_CHINESE,szGBString,-1,pBuffer,nLength);
     pBuffer[nLength]=0;
     wchar_t * pUnicodeBuff = GB2312ToUnicode(pBuffer);
     char * pBIG5Buff = UnicodeToBIG5(pUnicodeBuff);
     delete [] pBuffer;
     delete [] pUnicodeBuff;
     return pBIG5Buff;
}

三、API 函数:MultiByteToWideChar参数说明

第一个参数为代码页, 用 GetLocaleInfo 函数获取当前系统的代码页,936: 简体中文, 950: 繁体中文
第二个参数为选项,一般用 0 就可以了
第三个参数为 ANSI 字符串的地址, 这个字符串是第一个参数指定的语言的 ANSI 字符串 (AnsiString)
第四个参数为 ANSI 字符串的长度,如果用 -1, 就表示是用 0 作为结束符的字符串
第五个参数为转化生成的 unicode 字符串 (WideString) 的地址, 如果为 NULL, 就是代表计算生成的字符串的长度
第六个参数为转化生成的 unicode 字符串缓存的容量,也就是有多少个UNICODE字符

转载于:https://www.cnblogs.com/qiangge-blog/p/4828821.html

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
### 支持向量机非线性回归通用MATLAB程序解析 #### 一、概述 本文将详细介绍一个基于MATLAB的支持向量机(SVM)非线性回归的通用程序。该程序采用支持向量机方法来实现数据的非线性回归,并通过不同的核函数设置来适应不同类型的数据分布。此外,该程序还提供了数据预处理的方法,使得用户能够更加方便地应用此程序解决实际问题。 #### 二、核心功能与原理 ##### 1. 支持向量机(SVM) 支持向量机是一种监督学习模型,主要用于分类和回归分析。对于非线性回归任务,SVM通过引入核技巧(kernel trick)将原始低维空间中的非线性问题转换为高维空间中的线性问题,从而实现有效的非线性建模。 ##### 2. 核函数 核函数的选择直接影响到模型的性能。本程序内置了三种常用的核函数: - **线性核函数**:`K(x, y) = x'y` - **多项式核函数**:`K(x, y) = (x'y + 1)^d` - **径向基函数(RBF)**:`K(x, y) = exp(-γ|x - y|^2)` 其中RBF核函数被广泛应用于非线性问题中,因为它可以处理非常复杂的非线性关系。本程序默认使用的是RBF核函数,参数`D`用于控制高斯核函数的宽度。 ##### 3. 数据预处理 虽然程序本身没有直接涉及数据预处理的过程,但在实际应用中,对数据进行适当的预处理是非常重要的。常见的预处理步骤包括归一化、缺失值处理等。 ##### 4. 模型参数 - **Epsilon**: ε-insensitive loss function的ε值,控制回归带宽。 - **C**: 松弛变量的惩罚系数,控制模型复杂度与过拟合的风险之间的平衡。 #### 三、程序实现细节 ##### 1. 函数输入与输出 - **输入**: - `X`: 输入特征矩阵,维度为(n, l),其中n是特征数量,l是样本数量。 - `Y`: 目标值向量,长度为l。 - `Epsilon`: 回归带宽。 - `C`: 松弛变量的惩罚系数。 - `D`: RBF核函数的参数。 - **输出**: - `Alpha1`: 正的拉格朗日乘子向量。 - `Alpha2`: 负的拉格朗日乘子向量。 - `Alpha`: 拉格朗日乘子向量。 - `Flag`: 标记向量,表示每个样本的类型。 - `B`: 偏置项。 ##### 2. 核心代码解析 程序首先计算所有样本间的核矩阵`K`,然后构建二次规划问题并求解得到拉格朗日乘子向量。根据拉格朗日乘子的值确定支持向量,并计算偏置项`B`。 - **核矩阵计算**:采用RBF核函数,通过`exp(-(sum((xi-xj).^2)/D))`计算任意两个样本之间的相似度。 - **二次规划**:构建目标函数和约束条件,使用`quadprog`函数求解最小化问题。 - **支持向量识别**:根据拉格朗日乘子的大小判断每个样本是否为支持向量,并据此计算偏置项`B`。 #### 四、程序扩展与优化 - **多核函数支持**:可以通过增加更多的核函数选项,提高程序的灵活性。 - **自动调参**:实现参数自动选择的功能,例如通过交叉验证选择最优的`Epsilon`和`C`值。 - **并行计算**:利用MATLAB的并行计算工具箱加速计算过程,特别是当样本量很大时。 #### 五、应用场景 该程序适用于需要进行非线性回归预测的场景,如经济预测、天气预报等领域。通过调整核函数和参数,可以有效应对各种类型的非线性问题。 ### 总结 本程序提供了一个支持向量机非线性回归的完整实现框架,通过灵活的核函数设置和参数调整,能够有效地处理非线性问题。对于需要进行回归预测的应用场景,这是一个非常实用且强大的工具。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值