类型:集合
描述
网络流行神曲《达拉崩巴》歌词很逗很有画面感,前几行歌词如下:
很久很久以前,巨龙突然出现,带来灾难
带走了公主又消失不见,王国十分危险,世间谁最勇敢
一位勇者赶来,大声喊,我要带上最好的剑
翻过最高的山,闯进最深的森林,把公主带回到面前
国王非常高兴,忙问他的姓名,年轻人想了想
他说陛下我叫,达拉崩巴斑得贝迪卜多比鲁翁
再来说一次,达拉崩巴斑得贝迪卜多比鲁翁
是不是达拉崩巴…
请编写程序读取附件文件dalabengba.txt(一个纯文本文件,utf8编码)里的歌词,根据输入选项,对歌词进行统计(下面的统计都要求忽略换行符、逗号、句号等标点):
- 读入1时,统计输出歌词的长度、英雄的名字达拉崩巴斑得贝迪卜多比鲁翁在歌词里的出现次数、巨龙的名字昆图库塔卡提考特苏瓦西拉松在歌词里的出现次数。
- 读入2时,统计输出歌词里不同汉字的个数(重复出现的字不重复计数)。
- 读入3时,统计输出歌词里出现次数最多的前十个字及其次数,并输出这十个字的总次数在整个歌词长度里的占比(百分比形式输出,保留小数点后一位)。
输出时,按照汉字出现次数降序输出,当出现次数相同时,使用汉字作为第二排序依据。 - 读入其它整数时,打印"error"。
输入格式
输入为一行,为一个整数。
输出格式
和输入配套,输出有四种情况:
- 输入1时,输出有3行,都是正整数,分别表示歌词长度、英雄名的出现次数、巨龙名的出现次数。
- 输入2时,输出为一个正整数,表示歌词使用的不同汉字数(相同汉字的多次出现不重复计数)。
- 输入3时,输出有11行,前十行里每一行形如:
h1:v1
,表示汉字h1
及其在歌词里的出现频次v1
;
第十一行形如*.*%
,表示频次最高的前10个字总出现次数和歌词长度的比值,以百分数形式输出,保留小数点后一位。 - 输入其它整数时,输出error。
输入输出示例:
示例1
输入:
1
输出:
500
7
9
示例2
输入:
2
输出:
102
示例3
输入:
3
输出:
拉:21
他:13
巴:10
崩:9
鲁:8
苏:8
比:8
得:8
迪:7
贝:7
16.8%
示例4
输入:
4
输出:
error
参考代码
op = int(input()) #输入
with open("dalabengba.txt",'r',encoding='utf8') as f: #读取歌词
s = f.read()
dict1 = dict()
newS = ''
#下面的循环统计词频
for c in s:
if c in ',\n':
continue
newS += c
dict1[c]=dict1.get(c,0)+1
ls=[(k,v) for k,v in dict1.items()] #将字典转换为列表
ls.sort(key = lambda x : (x[1],x[0]), reverse=True) #根据词频排序,汉字作为第二排序依据
if op==1:
print(len(newS))
print(newS.count('达拉崩巴斑得贝迪卜多比鲁翁'))
print(newS.count('昆图库塔卡提考特苏瓦西拉松'))
elif op ==2:
print(len(ls))
elif op == 3:
sum1=0
for k,v in ls[:10]:
print("{}:{}".format(k,v))
sum1 += v
print("{:.1%}".format(sum1/len(newS)))
else:
print('error')