DataWhale AI学习笔记一

Qier876

已于 2024-07-30 22:29:22 修改

阅读量159

点赞数 8

文章标签：人工智能学习笔记

于 2024-07-30 22:23:27 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_69580270/article/details/140808270

版权

随着人工智能的发展，大规模深度学习模型（如GPT-4、BERT等）在各类任务中表现出了强大的能力。为了让这些模型发挥出最好的效果，数据处理和技术方案的实现非常重要。分享一下大模型的数据处理流程及相关技术方案，包括数据预处理、数据增强、模型训练和部署等方面。

数据预处理

数据预处理是大模型训练的第一步，好的数据预处理可以让模型效果更好。

数据清洗

数据清洗是把原始数据中的“脏数据”去掉，比如重复的记录、不完整的数据等。常用的方法有：

去重：删掉重复的数据记录。
填补缺失值：用均值、中位数等填补缺失的数据。
异常值处理：找到并处理异常值，比如用四分位数法或z-score方法。

数据格式转换

大模型通常需要特定格式的数据，比如JSON、CSV等。我们需要把数据转换成这些格式。

数据拆分

把数据集按照一定比例分成训练集、验证集和测试集，常见比例是8:1:1。这样可以保证训练和测试的公平性。

数据增强

数据增强是通过对原始数据进行各种变换来生成新的训练样本，提高模型的泛化能力，特别是在图像和文本数据处理中很常见。

图像数据增强

对图像进行旋转、缩放、平移等操作，可以使用imgaug或albumentations库来实现。

文本数据增强

对文本进行同义词替换、随机插入等操作，可以使用nlpaug库来实现。

关注

8
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
DataWhale AI学习笔记一

数据增强是通过对原始数据进行各种变换来生成新的训练样本，提高模型的泛化能力，特别是在图像和文本数据处理中很常见。把数据集按照一定比例分成训练集、验证集和测试集，常见比例是8:1:1。这样可以保证训练和测试的公平性。数据清洗是把原始数据中的“脏数据”去掉，比如重复的记录、不完整的数据等。大模型通常需要特定格式的数据，比如JSON、CSV等。数据预处理是大模型训练的第一步，好的数据预处理可以让模型效果更好。对文本进行同义词替换、随机插入等操作，可以使用。对图像进行旋转、缩放、平移等操作，可以使用。
复制链接

扫一扫

Qier876 CSDN认证博客专家 CSDN认证企业博客

码龄2年

30: 原创

19万+: 周排名

6万+: 总排名

6898: 访问

: 等级

391: 积分

67: 粉丝

88: 获赞

5: 评论

45: 收藏

私信

关注

热门文章

最新评论

VTD仿真教程
aiqNanXiaoPengYou: 暴露公司了啊
InternLM（第二期）第一课
CSDN-Ada助手: 恭喜您发布了第14篇博客，“InternLM（第二期）第一课”，持续努力创作，让我们能够跟随您的学习之旅。在下一篇博客中，或许您可以分享一些您在第一课中学到的知识和体会，让更多人受益。期待您的精彩内容，加油！
openmmlab 学习笔记
CSDN-Ada助手: 恭喜您写了第7篇博客！看到您写的openmmlab学习笔记，我感到非常欣慰，因为在这个领域里，知识的积累是非常重要的。我希望您能继续坚持写作，分享你的学习心得，为大家提供更多的帮助。同时，我也希望您能在未来的文章中，更加深入地探究openmmlab的相关知识，让我们共同学习、共同进步。 CSDN 会根据你创作的博客的质量，给予优秀的博主博客红包奖励。请关注 https://bbs.csdn.net/forums/csdnnews?typeId=116148&utm_source=csdn_ai_ada_blog_reply7 看奖励名单。
openmmlab MMpretrain笔记
CSDN-Ada助手: 恭喜您写了第8篇博客，标题为“openmmlab MMpretrain笔记”！阅读您的博客，我感受到了您的深厚技术功底和对开源项目的热爱。下一步，我建议您可以探索更多的开源项目并分享您的心得体会，不断提高自己的技术水平。期待您的更多精彩分享！ CSDN 会根据你创作的博客的质量，给予优秀的博主博客红包奖励。请关注 https://bbs.csdn.net/forums/csdnnews?typeId=116148&utm_source=csdn_ai_ada_blog_reply8 看奖励名单。
open MMlab第一课笔记
CSDN-Ada助手: Python入门技能树或许可以帮到你：https://edu.csdn.net/skill/python?utm_source=AI_act_python

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。