C语言怎么把单词拆成字母,如何用C语言切出汉语单词和英语单词混合字符串

最新推荐文章于 2022-04-30 19:09:20 发布

壮泉四十

最新推荐文章于 2022-04-30 19:09:20 发布

阅读量524

点赞数

文章标签： C语言怎么把单词拆成字母

我有一个字符串,其中包含UTF-8中的中文和英文单词：

char *str = "你a好测b试";

如果使用strlen(str),它将返回14,因为每个普通话字符使用三个字节,而每个英文字符仅使用一个字节.

现在,我要复制最左边的四个字符(“你好测”),并在末尾附加“ …”,以给出“你好测…”.

如果文本是单字节编码,我可以这样写：

strncpy(buf, str, 4);

strcat(buf, "...");

但是UTF-8中的4个字符不一定是4个字节.在此示例中,它将为13个字节：三个分别用于您,好和测距,一个用于a.因此,对于这种特定情况,我需要

strncpy(buf, str, 13);

strcat(buf, "...");

如果长度值不正确,则可能会产生字符不完整的UTF-8流中断.显然,我想避免这种情况.

如何计算要复制的,与给定字符数相对应的正确字节数？

解决方法:

首先,您需要了解您的编码.根据它的声音(3字节普通话),您的字符串使用UTF-8编码.

您需要做的是将UTF-8转换回Unicode代码点(整数).然后,您可以拥有一个整数数组,而不是字节数组,因此该数组的每个元素均为1个字符,不受语言保护.

特别是这个函数：int u8_toucs(u_int32_t * dest,int sz,char * src,int srcsz);可能会非常有用,它将创建一个整数数组,每个整数均为1个字符.然后,您可以根据需要修改数组,然后使用int u8_toutf8(char * dest,int sz,u_int32_t * src,int srcsz)再次将其转换回；

标签：utf-8,c-3,linux

来源： https://codeday.me/bug/20191026/1937835.html

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
C语言怎么把单词拆成字母,如何用C语言切出汉语单词和英语单词混合字符串

我有一个字符串,其中包含UTF-8中的中文和英文单词：char *str = "你a好测b试";如果使用strlen(str),它将返回14,因为每个普通话字符使用三个字节,而每个英文字符仅使用一个字节.现在,我要复制最左边的四个字符(“你好测”),并在末尾附加“ …”,以给出“你好测…”.如果文本是单字节编码,我可以这样写：strncpy(buf, str, 4);strcat(buf, "....
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。