文本数据分析
学习目标
-
了解文本数据分析的作用.
-
掌握常用的几种文本数据分析方法.
-
文本数据分析的作用:
- 文本数据分析能够有效帮助我们理解数据语料, 快速检查出语料可能存在的问题, 并指导之后模型训练过程中一些超参数的选择.
-
常用的几种文本数据分析方法:
- 标签数量分布
- 句子长度分布
- 词频统计与关键词词云
-
说明:
- 我们将基于真实的中文酒店评论语料来讲解常用的几种文本数据分析方法.
- 中文酒店评论语料:
- 属于二分类的中文情感分析语料, 该语料存放在"./cn_data"目录下.
- 其中train.tsv代表训练集, dev.tsv代表验证集, 二者数据样式相同.
-
train.tsv
数据样式:
sentence label
早餐不好,服务不到位,晚餐无西餐,早餐晚餐相同