C++ 字符字符串处理

cpp 调库总遇到字符处理的问题,开坑慢填。

  • 字符集

    • UNICOUDE

      Windows apps 采用 UTF-16 实现
      大多数字符 2-byte,补充集合用 a pair of 2-byte

    • Windows / OEM Code Page

      ASCII 基础上设计各国互不兼容的编码方案,ASCII只用了1个字节的前127个编码
      主要分为 SBCS 和 DBCS (中日韩)
      美国国家标准学会(American National Standards Institute) 收集整合,为每种方案设计 code page identifier。

  • ANSI C 标准 和 Windows 三套字符/字符串数据类型实现

    • generic
      编译时在 #include 前定义 UNICODE 宏,否则以windows code page编译
    • 仅用于 unicode
    • 仅用于 windows code pages
    // 头文件 Winnt.h
    // Generic types TCHAR LPTSTR LPTCH
    #ifdef UNICODE
     	typedef wchar_t TCHAR; // char 是 ANSI C data type
    #else
    	typedef unsigned char TCHAR;
    #endif
    
    typedef TCHAR *LPTSTR, *LPTCH;
    
    // 8-bit character specific 去掉表示类型的T
    typedef unsigned char CHAR;  // char 是 ANSI C data type
    typedef CHAR *LPSTR, *LPCH;
    
    // Unicode specific (wide characters) 表示类型的T换成宽字符W
    typedef unsigned wchar_t WCHAR;
    typedef WCHAR *LPWSTR, *LPWCH;
    

    需要说明的是,ANSI C 标准并没有具体规定基本类型应占字节数,具体占位和平台 CPU + OS + Compiler 有关

  • Windows API 三套处理字符/字符串的函数

    generic versionwindow code page version 用 “A” 标识、Unicode version 用 “W” 标识

    主要看 Standard C runtime library 中的字符处理函数

    • wcs/_wcs
      Unicode版,处理 wchar_t 类型
    • str
      code page版,处理 char 类型
    • _mbs
      DBCS版,处理中日韩等字符
    • _tcs
      generic版,处理 TCHAR 类型
    // to use the generic functions and compile for Unicode.
    #define _UNICODE
    
    #include <tchar.h>
    #include <wchar.h>
    

    需要说明的是,带下划线的 _UNICODE 用于standard C library,而不带下划线 UNICODE 用于Microsoft windows runtimes

  • 相互转换

    本质只有两种字符类型转换 MultiByteToWideCharWideCharToMultiByte

  • 字符串处理 STL 中的 <String>

    指路 cppreference/string 支持三种 general types of strings

    • std::basic_string - a templated class designed to manipulate strings of any character type.
    • std::basic_string_view(C++17) - a lightweight non-owning read-only view into a subsequence of a string.
    • Null-terminated strings - arrays of characters terminated by a special null character.
      在这里插入图片描述
      basic_string 的衍生最常使用
      Null-terminate string 在字符串处理函数如 _tcstok 等经常使用,本质可以看作字符指针
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值