我有一个字符串,其中包含UTF-8中的中文和英文单词:
char *str = "你a好测b试";
如果使用strlen(str),它将返回14,因为每个普通话字符使用三个字节,而每个英文字符仅使用一个字节.
现在,我要复制最左边的四个字符(“你好测”),并在末尾附加“ …”,以给出“你好测…”.
如果文本是单字节编码,我可以这样写:
strncpy(buf, str, 4);
strcat(buf, "...");
但是UTF-8中的4个字符不一定是4个字节.在此示例中,它将为13个字节:三个分别用于您,好和测距,一个用于a.因此,对于这种特定情况,我需要
strncpy(buf, str, 13);
strcat(buf, "...");
如果长度值不正确,则可能会产生字符不完整的UTF-8流中断.显然,我想避免这种情况.
如何计算要复制的,与给定字符数相对应的正确字节数?
解决方法:
首先,您需要了解您的编码.根据它的声音(3字节普通话),您的字符串使用UTF-8编码.
您需要做的是将UTF-8转换回Unicode代码点(整数).然后,您可以拥有一个整数数组,而不是字节数组,因此该数组的每个元素均为1个字符,不受语言保护.
特别是这个函数:int u8_toucs(u_int32_t * dest,int sz,char * src,int srcsz);可能会非常有用,它将创建一个整数数组,每个整数均为1个字符.然后,您可以根据需要修改数组,然后使用int u8_toutf8(char * dest,int sz,u_int32_t * src,int srcsz)再次将其转换回;
标签:utf-8,c-3,linux
来源: https://codeday.me/bug/20191026/1937835.html