儿童读物数据集的清洗（二）

weixin_40711135

于 2020-06-18 23:50:58 发布

阅读量563

点赞数 1

分类专栏：创新实训文章标签： nlp

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_40711135/article/details/106845623

版权

本文介绍了儿童文学数据集的清洗过程，包括去除源数据中的网页作者信息、章节名称和空格等干扰项，以提升标点符号训练的准确性。数据经过处理后，以纯文本形式整合为一个文件，并进行了停用词处理。下一步计划完成整个数据集的清洗，并对小学生作文数据集进行随机标点符号生成。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

儿童读物的数据清洗

1.源数据集的介绍
2.数据的最终呈现形式
3.对于数据集停用词的处理
4.接下来的计划

1.源数据集的介绍

测次的训练数据集采取儿童文学的数据
包含大量的设计童话、小故事、科普知识等的内容，年龄跨度大，可以适合低年级：1～3年级的基本写作和阅读范围，同时较为复杂的科学知识，丰富的故事等可以适合高年级：4～6年级的丰富写作水平也能符合。
数据集原始为一个故事为一个txt文档，存储在对应的文件夹下：
在这里插入图片描述
且每个txt文件中，包含一些网页作者等信息，章节名称、空格等，会影响标点符号训练的效果

需要去除这些干扰信息，帮助我们更加准确的训练。

2.数据的最终呈现形式

将所有的数据集仅保留文本内容，并合并为一个txt文件，方便后期的训练，同时删除不必要的空格、处理异常的符号等。
在这里插入图片描述

3.对于数据集

最低0.47元/天解锁文章

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。