数据读取与分析分析
train_df = pd.read_csv(’./train_set.csv’, sep=’\t’, nrows=10000)
数据量太大, 先读取一万条跑数
练习1
假定每一个标点符号对应一个句子, 因此只需要统计标点符号的次数即可.
train_df[‘sentence’] =train_df[‘text’].apply(lambda x: sum(pd.Series(x.split(’ ')).isin(list([‘3750’,‘900’,‘648’]))))
统计后对sentence 求mean
得到长度为 78.2
练习2
课程里面有教如何统计词频, 这里只要对稍作修改, 对每一个新闻类型统计词频即可
for i in range(0,14):
train_label =train_df[train_df[‘label’] == i]
all_lines = ’ ‘.join(list(train_label[‘text_unique’]))
word_count = Counter(all_lines.split(" "))
word_count = sorted(word_count.items(), key=lambda d:int(d[1]), reverse = True)
print(‘label’+str(i)+’:’ + str(word_count[0]))
输出结果如下:
label0:(‘3750’, 1870)
label1:(‘900’, 1845)
label2:(‘3750’, 1557)
label3:(‘3750’, 1078)
label4:(‘900’, 787)
label5:(‘3750’, 618)
label6:(‘3750’, 501)
label7:(‘3750’, 421)
label8:(‘648’, 404)
label9:(‘648’, 309)
label10:(‘3750’, 241)
label11:(‘3750’, 164)
label12:(‘3370’, 85)
label13:(‘648’, 53)