在进行bert模型预训练时，如何进行数据“增强“及规范数据集格式

shaova

于 2024-03-29 00:29:13 发布

阅读量289

点赞数 1

文章标签： bert 人工智能深度学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_63829601/article/details/137128400

版权

一丶最简单的数据增强方式就是将数据集内的文本进行翻译，然后在翻译回来，增加样本量。

由于我是真的新手，目前就介绍一下我自己处理的方法。首先，通过从最初的数据集中挑选你要增加的数据(因为直接复制出来会被改变格式，我不知道有什么好方法，如果有大佬能够指点一下更好啦！)。然后通过翻译软件进行翻译回译。然后将数据运用word文档等另存为txt文件，然后在记事本中又另存为csv文件，然后就可以通过csv文件的表格形式看到哪些数据分布错误。再就对这些数据进行规范就好了（具体方法就不介绍了，涉及excel。w也不是很会）。处理好后放入项目文件，然后运用最初处理数据集的代码重新处理一下，最后添加到分好的数据集中就可以咯！

（看以后还能找到更好的方法继续添加）

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
1
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

shaova CSDN认证博客专家 CSDN认证企业博客

码龄3年

2: 原创

204万+: 周排名

26万+: 总排名

434: 访问

: 等级

25: 积分

1: 粉丝

4: 获赞

2: 评论

0: 收藏

私信

关注

热门文章

最新评论

在进行bert模型预训练时，如何进行数据“增强“及规范数据集格式
CSDN-Ada助手: 恭喜您写下了第一篇博客！在进行bert模型预训练时，数据增强和数据集格式规范确实是非常重要的步骤。接下来，您可以考虑添加一些具体的示例或案例，让读者更容易理解您的观点。同时，也可以尝试探讨一些实际操作中可能遇到的挑战及解决方法，这样会让您的博客内容更加丰富和有深度。期待看到您更多精彩的博客作品！祝您写作顺利！推荐【每天值得看】：https://bbs.csdn.net/forums/csdnnews?typeId=21804&utm_source=csdn_ai_ada_blog_reply1
如何将复制的Anaconda环境进行自己配置
CSDN-Ada助手: 非常棒的分享！你的博客内容非常实用，对于想要在pycharm中运用Anaconda环境的人来说肯定非常有帮助。希望你可以继续分享更多类似的内容，让更多人受益。另外，除了配置Anaconda环境，如果你想进一步提升编程技能，可以尝试学习如何使用虚拟环境（virtualenv）来管理项目依赖，或者深入了解如何使用conda来进行包管理和环境管理。这些技能可以帮助你更好地组织和管理你的项目，提高开发效率。希望这些建议能对你有所帮助！期待看到你更多的分享。如何写出更高质量的博客，请看该博主的分享：https://blog.csdn.net/lmy_520/article/details/128686434?utm_source=csdn_ai_ada_blog_reply2

大家在看

最新文章

如何将复制的Anaconda环境进行自己配置

目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。