Utf8和Unicode转换问题 C语言 千字文问题

Utf8和Unicode转换问题

千字文


请编写一个程序,从输入中读取一篇中文文章,并统计出该文章中 ASCII 字符以外的重复出现的每一个字重复出现的次数。

文章使用 UTF-8 编码,可能会出现任何可以用 UTF-8 编码表示的字符(不限于中文)。

文章中所有的字符在 UCS-2 能够表示的范围内,即字符的 Unicode 值用两个字节就可以表示。

输入

一篇文章,总字数不限、每行字符数不限。每个字重复出现的次数不超过 60000 次。

输出

按照 Unicode 编码从小到大的顺序,输出文章中 ASCII (0~127) 字符以外的每一个重复出现过的字重复出现的次数。每行包含三项内容,首先是重复的字符(以 UTF-8 编码输出),然后是该字符的 Unicode 编码值(十六进制输出,字母均使用小写,长度不足4位数的用0补齐),最后输出该字符的重复次数。

如果文章中没有出现重复的字,则输出“No repeat!”。


思路:

1、首先,把utf-8转换为unicode:
        读入一个字符进来,转换为二进制判断从左边第一位开始其连续1的个数,有几个就是几字节
        如果是1,则是1字节数,即为ASCII码数,跳过
        如果是2,则是2字节数,则还需读入一个字符。
        二字节的格式:
        110xxxxx 10xxxxxx(第一个字节中的前三位固定,第二个字节中的前两位固定,将前面的xxxxx拼接上后面的xxxxxx即为改汉字的Unicode表示)
        可以让第一个字节char1 与上 0x001f右移6位,char2 与上0x003f,两者相加即可
        如果是3,则是3字节数,则还需读入两个字符。
        三字节的格式:
        1110xxxx 10xxxxxx 10xxxxxx(第一个字节中的前四位固定,第二、三个字节中的前两位固定,将前面的xxxx拼接上后面的xxxxxx 再拼接上 xxxxxx即为改汉字的Unicode表示)
        可以让第一个字节char1 与上 0x000f左移6位,char2 与上0x003f左移6位,char3与上0x003f三者相加即可
2、做一个hash表记录文章中该Unicode的数目
3、一个结构体(比如utf8)记录该unicode码(比如ucode)代表的utf8[ucode]的第一个,第二,第三个字节。以及该unicode码用有的字节数utf8[ucode].byteNum;
4、从0到65535循环判断如果为2字节,3字节则输出
5、如果没有重复则输出no repeat!

  • 1
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
千字文背景 在古代中国,《三字经》、《百家姓》、《千字文》被合称为三、百、千,都是非常重要的启蒙教育课本,广为流传。而其中问世最早的《千字文》更凭借其优美的文字、华丽的辞藻成为中华传统文化的一个重要组成部分,得到了人们的普遍重视和喜爱。 《千字文》的作者,是梁武帝时代官拜散骑员外郎的周兴嗣。历来在正史上的记载,就这样一笔带过,但据私家笔记的野史记载,内容不是这样简单了。周兴嗣同梁武帝本来便是文字之交的朋友,在萧齐时代,还在朝廷上有过同僚之谊。到了梁武帝当了皇帝,那就变成君臣的关系。由朋友变君臣,说是关系不错,其实,伴君如伴虎,反是最糟糕的事,周兴嗣有一次不小心得罪了梁武帝,梁武帝一怒之下,想杀他或很严厉地处分他,到底还是于心不忍,只好下令把先关起来再说。但梁武帝又说了一句话,你不是文才很好吗?你能在一夜之间,把一千个不同的字,写一篇好文章,就赦你无罪。因此,周兴嗣就在一夜之间,挖空心思,写了这篇《千字文》。文章写好了,可是在一夜之间,头发、眉毛、胡子也都白了!大家要注意,用一千个不同的中文字,一夜之间,写出有关宇宙、物理、人情、世故的文间,等于写了一篇非常精简的“中国文化纲领要点”,虽然,只写到南北时期的梁朝为止,实在也太难了。梁武帝本人,才华文学都自命不凡,看了周兴嗣一夜之间之间所写的《千字文》,也不能不佩服。周兴嗣因此得到宽恕,而且还特加赏赐。 ——摘自南怀瑾《原本大学微言》 现代人,一生中有机会通读千字文的机会是非常少的,很多理工科的大学生,完全没有听说过这篇神奇的文章,自然也会抱着“怀疑一切”的态度问,真的有这么神吗,真的一个重复的字都没有吗?耳听为虚,眼见为实,我们就来检验一下千字文中是不是真的没有重复的字。 不过在动手之前,先让我们花上几分钟的时间,读读《千字文》吧:简体中文版、正体中文版。 任务 请编写一个程序,从输入中读取一篇中文文章,并统计出该文章中 ASCII 字符以外的重复出现的每一个字重复出现的次数。 文章使用 UTF-8 编码,可能会出现任何可以用 UTF-8 编码表示的字符(不限于中文)。 文章中所有的字符在 UCS-2 能够表示的范围内,即字符的 Unicode 值用两个字节就可以表示。 输入 一篇文章,总字数不限、每行字符数不限。每个字重复出现的次数不超过 60000 次。 输出 按照 Unicode 编码从小到大的顺序,输出文章中 ASCII (0~127) 字符以外的每一个重复出现过的字重复出现的次数。每行包含三项内容,首先是重复的字符(以 UTF-8 编码输出),然后是该字符的 Unicode 编码值(十六进制输出,字母均使用小写,长度不足4位数的用0补齐),最后输出该字符的重复次数。 如果文章中没有出现重复的字,则输出“No repeat!”。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值