零基础入门nlp--数据读取与数据分析

最新推荐文章于 2023-09-07 07:22:15 发布

beautiful_well

最新推荐文章于 2023-09-07 07:22:15 发布

阅读量357

点赞数

分类专栏： DataWhale-自然语言处理文章标签：自然语言处理 nlp

本文链接：https://blog.csdn.net/beautiful_well/article/details/107487288

版权

本文介绍了自然语言处理（NLP）的入门步骤，通过pandas加载新闻数据，分析了新闻文本的长度、类别分布和字符频率。数据表明，新闻平均由907个字符构成，科技类新闻最多，而星座类最少，字符分布不均，存在较长文本，且类别不平衡问题，对模型训练有影响。

摘要由CSDN通过智能技术生成

1、通过pandas的read_csv读取数据

#读取数据
import pandas as pd
train_df = pd.read_csv(r'Data/nlp/train_set.csv', sep='\t', nrows=100)

显示前5条数据

2、数据分析的三个目标:

句子长度分析

在赛题数据中每行句子的字符使用空格进行隔开，所以可以直接统计单词的个数来得到每个句子的长度。统计并如下：

train_df['text_len'] = train_df['text'].apply(lambda x: len(x.split(' ')))
print(train_df['text_len'].describe())

关注

专栏目录