Datawhale-AI 夏令营自然语言处理实战营总结（Task01-Task02）

最新推荐文章于 2024-10-19 22:42:57 发布

追逐着明

最新推荐文章于 2024-10-19 22:42:57 发布

阅读量976

点赞数 7

文章标签：自然语言处理

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/m0_74105281/article/details/140429896

版权

一、进入实战营之前的基础

之前也参加过比较多的AI的那种运用工具生成AI的活动，但目前就一直停留在概念的层面。一大堆的数学推导与模型没有一个直观地感受。

二、Task01总结

任务：跑通baseline

借助的工具：魔搭社区

（魔搭平台可以有CPU和GPU的两种方式设置，跑模型一般用GPU，这个平台比较便捷）

总体的过程：进入魔搭社区之后，选择要创建的Notebook类型（CPU or GPU平台），之后把数据和样例代码创建在一个文件夹内，将样例数据和编写的推理代码运行一通就是了。

三、Task02总结

对赛题的理解：

1.赛题链接：2024 iFLYTEK A.I.开发者大赛-讯飞开放平台

2.赛题个人解读：

（1）.赛题的任务：基于给定的中英文术语结合，实现对文章的翻译任务。

（2）.赛题的评分标准：采用自动评价指标BLUE-4进行评价（连续4个单词对应的4个句子语义正确才算该点正确）

（3）.赛题的相关背景知识：

自然语言处理基础：

A.Seq2Seq序列：全称 Sequence to Sequence ，指的是从一个序列到另外一个序列的方法。

内部细节：

编码器：将输入的模式转化成数字特征进行计算，以nlp为例，将输入的一句话通过某一种编码方式让其转化成数字。

解码器：通过数字转化为某种模式，顾名思义，转化成某种语言。

既然编码器和解码器均需要有某种特定的编码与解码的方法，那么有以下模型是在自然语言处理领域编码或解码所常用的：(sigmoid符号代指激活函数加成)

a.GRU（门控单元）

结构图如图

b.LSTM（长短记忆循环神经网络）等。

结构

特点：采用了数学中的映射的思想，较为清楚直观。

缺点：通过代码实操发现，在翻译领域的BLEU评价指标基本得分很低，直接原因是翻译出来的语句较生硬，基本都是通过映射方式，语句块之间没有任何的逻辑联系。

B.（修改方案）加上注意力机制

定义：

（Baseline代码在夏令营文档中）

下面详细说明Baseline代码的思路与详细过程：

①导入相关的库，根据赛题的需求，我们结合nlp的相关特性，引入torch在自然语言处理方面的文字处理神经网络torchtext,jieba分词库。此外，由于该比赛有专业词库的数据提示，可以是我们的翻译在某种程度上会更好地结果，因此，我们考虑了spacy库的安装

②读取相关的训练数据，由于数据中不乏有脏数据，因此需要做一步数据的处理，使模型的训练效率更加的高

③构建词汇表，根据英文和中文数据的词汇内容，增加索引的内容，对于一些陌生的词汇，我们给予其“未知”的标签。（如果自己可以添加更多的训练样本那么可能模型会更加的好）

④构建模型：

Baseline中采用注意力机制与编码器译码器(Seq2Seq)结合的方式，设置注意力参数以及网络的结构。

⑤训练模型：

在训练过程中我们加入梯度下降（运用torch的自动求导寻找极值点）和反向传播(设置反向传播函数为)的过程，使得模型能够找到优化的结果，并且提高模型的精度。同时，对于模型给予评价（按照平均损失），检验迭代的次数。

⑥构建翻译函数

由于模型仅仅只是确定翻译的某个数学关系，而翻译的执行函数主要是通过张量来实现，因此，通过把构建的张量输入到模型可以得到反馈的结果。

⑦执行与调用

运行代码中产生的问题：

①在运行Baseline时，我们发现得分比原来的Task01原始的得分还要低。想到的解决方案如下：

调整增加训练的次数（结果显示"CUDA out of memory"）

将分割改为一行一行地分割（准确率有所提升）

②在运行Baseline改编版时用时有所加长，这都是因为在对文章检索时会逐句搜索，分割的内容会更加细一些。

③个人认为优化的参数过多可能会导致过拟合从而使验证集上的评价效果会更差。

四、两部分的任务总结

由于本次是初步进行实验，因此，对于这一块代码的独立编写还不算是很熟，仅仅知道最起码的基本流程。

关注

7
点赞
踩
20

收藏

觉得还不错? 一键收藏
打赏
1
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

追逐着明 CSDN认证博客专家 CSDN认证企业博客

码龄2年

南京邮电大学

15: 原创

141万+: 周排名

8万+: 总排名

7479: 访问

: 等级

286: 积分

120: 粉丝

135: 获赞

2: 评论

147: 收藏

私信

关注

热门文章

最新评论

Datawhale-AI 夏令营自然语言处理实战营总结（Task01-Task02）
CSDN-Ada助手: Python入门技能树或许可以帮到你：https://edu.csdn.net/skill/python?utm_source=AI_act_python
Datawhale-AI 夏令营自然语言处理实战营总结（Task01-Task02）
CSDN-Ada助手: 恭喜你这篇博客进入【CSDN每天值得看】榜单，全部的排名请看 https://bbs.csdn.net/topics/619173596。
我的创作纪念日
CSDN-Ada助手: 恭喜你的第三篇博客《我的创作纪念日》！持续创作是一件了不起的事情，你已经展现了你的坚持和才华。我希望你能继续保持这样的势头，不断挑战自己，探索更多有趣的创作主题。也许你可以尝试深入研究一些热门话题，或者分享一些个人经历和感悟，这将为你的读者带来更多的共鸣和启发。期待看到你未来更多的创作成果！ CSDN 正在通过评论红包奖励优秀博客，请看红包流：https://bbs.csdn.net/?type=4&header=0&utm_source=csdn_ai_ada_blog_reply3

最新文章

目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

追逐着明 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。