C语言怎么把单词拆成字母,如何用C语言切出汉语单词和英语单词混合字符串

我有一个字符串,其中包含UTF-8中的中文和英文单词:

char *str = "你a好测b试";

如果使用strlen(str),它将返回14,因为每个普通话字符使用三个字节,而每个英文字符仅使用一个字节.

现在,我要复制最左边的四个字符(“你好测”),并在末尾附加“ …”,以给出“你好测…”.

如果文本是单字节编码,我可以这样写:

strncpy(buf, str, 4);

strcat(buf, "...");

但是UTF-8中的4个字符不一定是4个字节.在此示例中,它将为13个字节:三个分别用于您,好和测距,一个用于a.因此,对于这种特定情况,我需要

strncpy(buf, str, 13);

strcat(buf, "...");

如果长度值不正确,则可能会产生字符不完整的UTF-8流中断.显然,我想避免这种情况.

如何计算要复制的,与给定字符数相对应的正确字节数?

解决方法:

首先,您需要了解您的编码.根据它的声音(3字节普通话),您的字符串使用UTF-8编码.

您需要做的是将UTF-8转换回Unicode代码点(整数).然后,您可以拥有一个整数数组,而不是字节数组,因此该数组的每个元素均为1个字符,不受语言保护.

特别是这个函数:int u8_toucs(u_int32_t * dest,int sz,char * src,int srcsz);可能会非常有用,它将创建一个整数数组,每个整数均为1个字符.然后,您可以根据需要修改数组,然后使用int u8_toutf8(char * dest,int sz,u_int32_t * src,int srcsz)再次将其转换回;

标签:utf-8,c-3,linux

来源: https://codeday.me/bug/20191026/1937835.html

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值