Datawhale零基础入门NLP赛事-LUV

Datawhale零基础入门NLP赛事-LUV

对于题目的思路:
熟悉数据集,了解数据集。
了解变量间的相互关系以及变量与预测值之间的存在关系。
进行数据处理以及特征工程的步骤,使数据集的结构和特征集让接下来的预测问题更加可靠
1.读取数据集

2.每个句子平均由1035个字符构成,最短的长度为51,最长的长度为5844。

在这里插入图片描述
绘制字符数直方图
在这里插入图片描述
3.绘制分类直方图
在这里插入图片描述
从统计结果可以看出,数据集类别分布存在较为不均匀的情况。在训练集中科技类新闻最多,其次是股票类新闻,最少的新闻是星座新闻。

作业1:假设字符3750,字符900和字符648是句子的标点符号,请分析赛题每篇新闻平均由多少个句子构成?
(1)获取句子数量
在这里插入图片描述
(2)句子数量直方图
在这里插入图片描述
数据集中句子的平均数量约为110

作业2.统计每类新闻中出现次数最多的字符
在这里插入图片描述
3370字符在几类新闻中出现的次数最多

  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值