C语言宽字符——字符集与字符编码和宽字符之间的关系

最新推荐文章于 2024-04-24 14:50:07 发布

revilwang

最新推荐文章于 2024-04-24 14:50:07 发布

阅读量7.2k

点赞数 1

本文链接：https://blog.csdn.net/revilwang/article/details/8763911

版权

本文探讨了C语言宽字符与ISO 10646、Unicode、UCS、UTF-8、UTF-16、UTF-32等字符编码标准的关系，以及何时在项目中使用宽字符。

摘要由CSDN通过智能技术生成

前言：

距上一篇博文，已经是3个月的时间了，忙碌着项目开发，无暇顾及博客。现在项目总算是结束了一个段落，是该总结的时候。4月份将会更新几篇文章，都是在项目中遇到的问题，然后再深入了解之后总结出来的，希望通过这个平台能与更多的人有更多的交流。

正文：

我在做日志管理这一部分内容的时候，碰到了这样一个问题：程序运行到时间处理的库函数时，如 ctime, strftime, localtime，程序就会立即断错误，搜索之后才知道这种情况很有可能是因为前面的程序出现了内存泄露或越界，用 valgrind 调试的时候，它总是会在这么一行程序上警告：

wcsncpy(log->name, pu_desc->name, sizeof(log->name)-1);

两个结构体成员的 name 均定义成 wchar_t name[32]，所以使用了 wcsncpy。开始的时候怎么都没看出来哪里出问题了，我还特意在复制的大小值那里减1，就是为了预防越界。后来用 gdb 跟踪到这里，gdb 显示第三个参数传递的是 127，的确是没错，因为在 GNU 的 C 库里面，wchar_t 是4个字节的，又回头查阅了 wcsncpy 的帮助手册，才看到这个函数要求传递的第三个参数是 宽字符的个数，而不是字节数。传递了 127 个宽字符，肯定就越界了。

除了这个问题以外，在数据库处理的时候也碰到了字符乱码的问题，因为这个名称是要求用中文显示的，后来虽然问题解决了，但是一直搞不清楚UTF-8，宽字符之间到底是一种怎么样的关系，更别说再扯到其他的 UTF-16 等等，就彻底糊涂了。经过这几天的深入了解，总算是有些头绪了，现在以问题列表的形式将学习内容总结如下：

一、什么是ISO 10646，Unicode，UCS，UTF-8，UTF-16，UTF-32，UCS-2，UCS-4？它们到底存在什么样的关系？

1. 字符集和字符编码

要弄清这些，先要明白两个概念：字符集(character set)和字符编码(character encoding)。ISO 10646是标准，UCS 和 Unicode 是字符集，剩下的都是字符编码。 字符集</

最低0.47元/天解锁文章

revilwang

关注

1
点赞
踩
11

收藏

觉得还不错? 一键收藏
1
评论
C语言宽字符——字符集与字符编码和宽字符之间的关系

前言：距上一篇博文，已经是3个月的时间了，忙碌着项目开发，无暇顾及博客。现在项目总算是结束了一个段落，是该总结的时候。4月份将会更新几篇文章，都是在项目中遇到的问题，然后再深入了解之后总结出来的，希望通过这个平台能与更多的人有更多的交流。正文：我在做日志管理这一部分内容的时候，碰到了这样一个问题：程序运行到时间处理的库函数时，如 ctime, strftime, localti
复制链接

扫一扫