Datawhale零基础入门NLP赛事-LUV
对于题目的思路:
熟悉数据集,了解数据集。
了解变量间的相互关系以及变量与预测值之间的存在关系。
进行数据处理以及特征工程的步骤,使数据集的结构和特征集让接下来的预测问题更加可靠
1.读取数据集
2.每个句子平均由1035个字符构成,最短的长度为51,最长的长度为5844。
绘制字符数直方图
3.绘制分类直方图
从统计结果可以看出,数据集类别分布存在较为不均匀的情况。在训练集中科技类新闻最多,其次是股票类新闻,最少的新闻是星座新闻。
作业1:假设字符3750,字符900和字符648是句子的标点符号,请分析赛题每篇新闻平均由多少个句子构成?
(1)获取句子数量
(2)句子数量直方图
数据集中句子的平均数量约为110
作业2.统计每类新闻中出现次数最多的字符
3370字符在几类新闻中出现的次数最多