零基础入门NLP组队学习-Task2（赛题读取与分析）

最新推荐文章于 2024-08-18 19:53:43 发布

杰杰哒来了

最新推荐文章于 2024-08-18 19:53:43 发布

阅读量144

点赞数 1

分类专栏： NLP组队打卡文章标签：机器学习 nlp

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/m0_46673403/article/details/107524998

版权

NLP组队打卡专栏收录该内容

4 篇文章 0 订阅

订阅专栏

NLP组队学习Day2

目录

数据读取

数据分析

-句子长度分析 
-新闻类别分布
-字符分布统计
-数据分析结论

本章作业

数据读取

昨天按照自己的方法读了一遍，今天根据官方的方法读了一遍。

数据分析

1.句子长度分析

2.新闻类别分布

在数据集中标签的对应的关系如下：{‘科技’: 0, ‘股票’: 1, ‘体育’: 2, ‘娱乐’: 3, ‘时政’: 4, ‘社会’: 5, ‘教育’: 6, ‘财经’: 7, ‘家居’: 8, ‘游戏’: 9, ‘房产’: 10, ‘时尚’: 11, ‘彩票’: 12, ‘星座’: 13}

从统计结果可以看出，赛题的数据集类别分布存在较为不均匀的情况。在训练集中科技类新闻最多，其次是股票类新闻，最少的新闻是星座新闻。

3.字符分布统计
接下来可以统计每个字符出现的次数，首先可以将训练集中所有的句子进行拼接进而划分为字符，并统计每个字符的个数。
不知为啥这里没出来，也没有具体的出错原因。
（假装出结果了）
接下来还可以根据字在每个句子的出现情况，反推出标点符号。下面代码统计了不同字符在句子中出现的次数，其中字符3750，字符900和字符648在20w新闻的覆盖率接近99%，很有可能是标点符号。

4.数据分析结论
通过上述分析我们可以得出以下结论：

赛题中每个新闻包含的字符个数平均为1000个，还有一些新闻字符较长；

赛题中新闻类别分布不均匀，科技类新闻样本量接近4w，星座类新闻样本量不到1k；

赛题总共包括7000-8000个字符；

通过数据分析，我们还可以得出以下结论：
每个新闻平均字符个数较多，可能需要截断；

由于类别不均衡，会严重影响模型的精度；

本章作业

1.假设字符3750，字符900和字符648是句子的标点符号，请分析赛题每篇新闻平均由多少个句子构成？

平均每篇新闻由80.8个句子构成。
2.统计每类新闻中出现次数最多的字符

杰杰哒来了

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
零基础入门NLP组队学习-Task2（赛题读取与分析）

NLP组队学习Day2目录数据读取数据分析-句子长度分析 -新闻类别分布-字符分布统计-数据分析结论本章作业数据读取昨天按照自己的方法读了一遍，今天根据官方的方法读了一遍。数据分析1.句子长度分析2.新闻类别分布在数据集中标签的对应的关系如下：{‘科技’: 0, ‘股票’: 1, ‘体育’: 2, ‘娱乐’: 3, ‘时政’: 4, ‘社会’: 5, ‘教育’: 6, ‘财经’: 7, ‘家居’: 8, ‘游戏’: 9, ‘房产’: 10, ‘时尚’:
复制链接

扫一扫

专栏目录

杰杰哒来了 CSDN认证博客专家 CSDN认证企业博客

码龄4年

6: 原创

112万+: 周排名

68万+: 总排名

1092: 访问

: 等级

66: 积分

4: 粉丝

5: 获赞

2: 评论

10: 收藏

私信

关注

热门文章

分类专栏

NLP组队打卡 4篇

最新评论

零基础入门NLP组队学习-Task4（基于深度学习的文本分类1）
CSDN-Ada助手: 非常感谢CSDN博主的分享，这篇博客真的帮助到了很多零基础的NLP学习者。我觉得下一篇博客可以继续深入探讨基于深度学习的文本分类，从实战应用的角度出发，介绍不同深度学习模型在文本分类中的应用及优缺点。这样的技术文章对其他用户也会有很大帮助。相信会有更多读者期待你的下一篇博客。加油！为了方便博主创作，提高生产力，CSDN上线了AI写作助手功能，就在创作编辑器右侧哦～（https://mp.csdn.net/edit?utm_source=blog_comment_recall ）诚邀您来加入测评，到此（https://activity.csdn.net/creatActivity?id=10450&utm_source=blog_comment_recall）发布测评文章即可获得「话题勋章」，同时还有机会拿定制奖牌。
西瓜书第三章线性模型部分公式推导
weixin_46383988: 大佬，太厉害了

大家在看

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。