datawhale 从零nlp - task2

最新推荐文章于 2021-01-07 12:13:53 发布

Ivan_禧

最新推荐文章于 2021-01-07 12:13:53 发布

阅读量131

点赞数

分类专栏： Datawhale pandas开源课程

本文链接：https://blog.csdn.net/qq_41760902/article/details/107526471

版权

Datawhale pandas开源课程专栏收录该内容

13 篇文章 0 订阅

订阅专栏

数据读取与分析分析

train_df = pd.read_csv(’./train_set.csv’, sep=’\t’, nrows=10000)

数据量太大, 先读取一万条跑数

练习1

假定每一个标点符号对应一个句子, 因此只需要统计标点符号的次数即可.
train_df[‘sentence’] =train_df[‘text’].apply(lambda x: sum(pd.Series(x.split(’ ')).isin(list([‘3750’,‘900’,‘648’]))))
统计后对sentence 求mean
得到长度为 78.2

练习2

课程里面有教如何统计词频, 这里只要对稍作修改, 对每一个新闻类型统计词频即可
for i in range(0,14):
train_label =train_df[train_df[‘label’] == i]
all_lines = ’ ‘.join(list(train_label[‘text_unique’]))
word_count = Counter(all_lines.split(" "))
word_count = sorted(word_count.items(), key=lambda d:int(d[1]), reverse = True)
print(‘label’+str(i)+’:’ + str(word_count[0]))

输出结果如下:
label0:(‘3750’, 1870)
label1:(‘900’, 1845)
label2:(‘3750’, 1557)
label3:(‘3750’, 1078)
label4:(‘900’, 787)
label5:(‘3750’, 618)
label6:(‘3750’, 501)
label7:(‘3750’, 421)
label8:(‘648’, 404)
label9:(‘648’, 309)
label10:(‘3750’, 241)
label11:(‘3750’, 164)
label12:(‘3370’, 85)
label13:(‘648’, 53)