李宏毅2021年机器学习作业4（Self-attention）实验记录

最新推荐文章于 2024-04-30 23:23:05 发布

DogDog_Shuai

最新推荐文章于 2024-04-30 23:23:05 发布

阅读量2.8k

点赞数 3

分类专栏：李宏毅机器学习文章标签：深度学习 linux 机器学习人工智能

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_42994201/article/details/121366280

版权

李宏毅机器学习专栏收录该内容

7 篇文章 24 订阅

订阅专栏

李宏毅2021年机器学习作业4学习笔记

前言
一、问题描述
二、实验过程
三、总结

前言

声明：本文参考了李宏毅机器学习2021年作业例程，开发平台是kaggle notebook。

一、问题描述

识别出声音信号是哪个人说的，实质是一个classification问题。
B站作业讲解视频
 Kaggle地址

在这里插入图片描述

Baselines:
○ Simple: Run sample code and know how to use transformer. 0.82523
○ Medium: Know how to adjust parameters of transformer.0.90547
○ Hard: Construct conformer which is a variety of transformer.0.95404

medium修改方案

hard方案
在这里插入图片描述

二、实验过程

2.1 跑助教提供的

由于助教讲解作业时提到，baseline能跑到0.82左右，可以改多头注意力部分和全连接层改进，所以我就没有再做。参照其他同学的baseline跑出的结果大概都在0.82左右。
Kaggle得分： 0.811

2.2 多头注意力

操作：将nhead从2改成1；全连接层从2 层改成1层
结果：在这里插入图片描述
运行时长：42min
Kaggle得分：0.83444 0.84357

2.3 加深transformer encoder layer

操作：在2.2基础上，transformer encoder layer从一层改为两层
结果：在这里插入图片描述
运行时长：1h
Kaggle得分：0.89777 0.90142（提升明显）

2.4 Conformer

conformer论文地址在这里插入图片描述
 conformer开源代码

操作：将2.2基础上transformer换成conformer
结果：在这里插入图片描述
Kaggle得分：0.89555 0.89619

2.5 后续优化方案

调conformer相关参数。
调高d_model，使模型变复杂。
可以看到，从60000步到70000步，accuracy依然在增大，可以考虑增大训练轮数。

三、总结

在这里插入图片描述

Optimizer
使用AdamW，是Adam的一种变形

network架构

transformer多头注意力与单头注意力对于不同数据集有不同效果。
输出线性层不宜过多
Conformer相比于Transformer有一定优化

代码链接：

https://github.com/Wangdaoshuai/LHYML2021-Spring

关注

3
点赞
踩
14

收藏

觉得还不错? 一键收藏
1
评论
李宏毅2021年机器学习作业4（Self-attention）实验记录

李宏毅2021年机器学习作业4学习笔记前言一、问题描述二、实验过程2.1 跑助教提供的2.2 多头注意力2.3 加深transformer encoder layer2.4 Conformer2.5 后续优化方案三、总结前言声明：本文参考了李宏毅机器学习2021年作业例程，开发平台是kaggle notebook。一、问题描述识别出声音信号是哪个人说的，实质是一个classification问题。B站作业讲解视频Kaggle地址Baselines:○ Simple: Run samp
复制链接

扫一扫

专栏目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。