Task2 数据读取与数据分析

最新推荐文章于 2022-09-25 21:21:25 发布

Thor1

最新推荐文章于 2022-09-25 21:21:25 发布

阅读量182

点赞数

文章标签： nlp

本文链接：https://blog.csdn.net/Thor1/article/details/107523645

版权

一，数据读取
下载数据
1.train_set.csv.zip
2.test_a.csv.zip
3.test_a_sample_submit.csv

读取数据

import pandas as pd
train_df = pd.read_csv('../data/train_set.csv', sep='\t', nrows=100)

数据分析
句子长度

%pylab inline
train_df['text_len'] = train_df['text'].apply(lambda x: len(x.split(' ')))
print(train_df['text_len'].describe())

Populating the interactive namespace from numpy and matplotlib

count 100.000000

mean 872.320000

std 923.138191

min 64.000000

25% 359.500000

50% 598.000000

75% 1058.000000

max 7125.000000

Name: text_len, dtype: float64

新闻类别分布

train_df['label'].value_counts().plot(kind='bar')
plt.title('News class count')
plt.xlabel("category")

在这里插入图片描述
字符分布统计

from collections import Counter
all_lines = ' '.join(list(train_df['text']))
word_count = Counter(all_lines.split(" "))
word_count = sorted(word_count.items(), key=lambda d:d[1], reverse = True)

print(len(word_count))

print(word_count[0])

print(word_count[-1])

from collections import Counter
train_df['text_unique'] = train_df['text'].apply(lambda x: ' '.join(list(set(x.split(' ')))))
all_lines = ' '.join(list(train_df['text_unique']))
word_count = Counter(all_lines.split(" "))
word_count = sorted(word_count.items(), key=lambda d:int(d[1]), reverse = True)

print(word_count[0])

print(word_count[1])

print(word_count[2])

Thor1

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Task2 数据读取与数据分析

一，数据读取下载数据1.train_set.csv.zip2.test_a.csv.zip3.test_a_sample_submit.csv读取数据import pandas as pdtrain_df = pd.read_csv('../data/train_set.csv', sep='\t', nrows=100)数据分析句子长度%pylab inlinetrain_df['text_len'] = train_df['text'].apply(lambda x: len(x
复制链接

扫一扫