Utf8和Unicode转换问题 C语言千字文问题

最新推荐文章于 2022-06-03 16:26:49 发布

tata_qing

最新推荐文章于 2022-06-03 16:26:49 发布

阅读量1.5k

点赞数 1

分类专栏：算法OJ 文章标签： BIT c语言编程 utf-8 unicode

本文链接：https://blog.csdn.net/q664609859/article/details/71080699

版权

算法OJ 专栏收录该内容

1 篇文章 0 订阅

订阅专栏

Utf8和Unicode转换问题

千字文

请编写一个程序，从输入中读取一篇中文文章，并统计出该文章中 ASCII 字符以外的重复出现的每一个字重复出现的次数。

文章使用 UTF-8 编码，可能会出现任何可以用 UTF-8 编码表示的字符（不限于中文）。

文章中所有的字符在 UCS-2 能够表示的范围内，即字符的 Unicode 值用两个字节就可以表示。

输入

一篇文章，总字数不限、每行字符数不限。每个字重复出现的次数不超过 60000 次。

输出

按照 Unicode 编码从小到大的顺序，输出文章中 ASCII (0~127) 字符以外的每一个重复出现过的字重复出现的次数。每行包含三项内容，首先是重复的字符（以 UTF-8 编码输出），然后是该字符的 Unicode 编码值（十六进制输出，字母均使用小写，长度不足4位数的用0补齐），最后输出该字符的重复次数。

如果文章中没有出现重复的字，则输出“No repeat!”。

思路：

1、首先，把utf-8转换为unicode:
       读入一个字符进来，转换为二进制判断从左边第一位开始其连续1的个数，有几个就是几字节
       如果是1，则是1字节数，即为ASCII码数，跳过
       如果是2，则是2字节数，则还需读入一个字符。
       二字节的格式：
       110xxxxx 10xxxxxx（第一个字节中的前三位固定，第二个字节中的前两位固定，将前面的xxxxx拼接上后面的xxxxxx即为改汉字的Unicode表示）
       可以让第一个字节char1 与上 0x001f右移6位，char2 与上0x003f，两者相加即可
       如果是3，则是3字节数，则还需读入两个字符。
       三字节的格式：
       1110xxxx 10xxxxxx 10xxxxxx（第一个字节中的前四位固定，第二、三个字节中的前两位固定，将前面的xxxx拼接上后面的xxxxxx 再拼接上 xxxxxx即为改汉字的Unicode表示）
       可以让第一个字节char1 与上 0x000f左移6位，char2 与上0x003f左移6位，char3与上0x003f三者相加即可
2、做一个hash表记录文章中该Unicode的数目
3、一个结构体(比如utf8）记录该unicode码(比如ucode)代表的utf8[ucode]的第一个，第二，第三个字节。以及该unicode码用有的字节数utf8[ucode].byteNum;
4、从0到65535循环判断如果为2字节，3字节则输出
5、如果没有重复则输出no repeat!

tata_qing

关注

1
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
Utf8和Unicode转换问题 C语言千字文问题

Utf8和Unicode转换问题千字文请编写一个程序，从输入中读取一篇中文文章，并统计出该文章中 ASCII 字符以外的重复出现的每一个字重复出现的次数。文章使用 UTF-8 编码，可能会出现任何可以用 UTF-8 编码表示的字符（不限于中文）。文章中所有的字符在 UCS-2 能够表示的范围内，即字符的 Unicode 值用两个字节就可以表示。输入一篇文章，总字
复制链接

扫一扫