Q1:假设字符3750,字符900和字符648是句子的标点符号,请分析赛题每篇新闻平均由多少个句子构成?
根据学习笔记,代码修改如下:
from collections import Counter
all_lines = ' '.join(list(train_df['text']))
word_count = Counter(all_lines.split(" ")) #返回的是键值对,字符以及与之对应的个数。
word_count = sorted(word_count.items(), key=lambda d:d[1], reverse = True)
for i in word_count:
if i[0] == '3750':
word_s= i[1]
if i[0] == '900':
word_s += i[1]
if i[0] == '648':
word_s += i[1]
counts_s = word_s/200000
print("平均每篇文章句子个数为:",counts_s)
Q2:统计每类新闻中出现次数最多的字符(默认最多的字符前三是符号,所以去第四多的字符)。