深度学习
文章平均质量分 86
野指针小李
这个作者很懒,什么都没留下…
展开
-
hit@k 评价指标
hit@k 指的是在前 k 个结果中命中的概率。举例而言,假设我们在做 MLM (masked language model) 任务,输入:A bird usually has [MASK] legs. 真实标签为:two,输出的结果为:four: 0.321two: 0.178three: 0.114six: 0.064no: 0.063如果是用 hit@1 accuracy 作为评价指标,那么我们看前 1 个结果,是 four,那么 FN + 1;如果是用 hit@2 accura原创 2022-05-27 15:31:23 · 10244 阅读 · 0 评论 -
什么是 prompt learning?简单直观理解 prompt learning
prompt learning 有可能会成为下一代预训练语言模型,所以本博客在此简单直观的介绍一下何为 prompt learning。原创 2022-01-05 16:47:26 · 15873 阅读 · 2 评论 -
单身舔狗的崛起之路——用MLP给你喜欢的女生训练个专属的衣服穿搭神经网络
曾经有个人给我说过,当年有个男的追她,天天给她发天气预报。但是女神不会看天气预报啊?或者她不会抬头望望天啊?于是秉持着舔到最后应有尽有,偷懒是人类进步的最大动力这两大原则,我为女神训练出了一个专属的衣服穿搭神经网络。整个项目已开源至github:https://github.com/Balding-Lee/PyTorch-MLP-for-personalized-dress-matching。目录1 数据获取2 数据处理3 模型定义与训练3.1 模型定义3.2 评价指标与损失函数3.3 训练模型3.原创 2021-10-29 12:37:43 · 1386 阅读 · 0 评论 -
Pytorch学习笔记(4)——从0实现CNN情感分析
感觉之前RNN的代码写的太丑陋了,所以该文章主要参考了Dive-into-DL-PyTorch和中文文本分类 pytorch实现的代码。目录1 项目框架2 预处理2.1 将所有词映射为词向量2.2 将句子中的词语映射为id3 CNN模型4 参考1 项目框架整个项目的框架抽象来看是如下的:简而言之就是输入的是整一句话,宽度为词向量维度(这里是300维),高度为句子最大长度。经过嵌入层嵌入后,通过卷积与最大池化层,最后进入全连接层,在softmax后得到情感分类的输出。其详细的框架图为:中文文本.原创 2021-10-26 15:57:01 · 1037 阅读 · 4 评论 -
Pytorch学习笔记(3)——从0实现RNN情感分析
本文从0实现了用torch做基于RNN的情感分析。代码已上传到Github,链接为:https://github.com/Balding-Lee/torch-sentiment-analysis-based-on-RNN。但是效果并不是特别好,有可能是数据问题,也有可能是代码问题。如果是代码问题,欢迎指教。目录1 任务描述2 数据处理2.1 词语数目确定2.2 未知词词向量给定2.3 词嵌入3 模型训练3.1 RNN3.2 k折交叉验证3.3 获得准确率3.4 训练1 任务描述我的任务目标是采用t.原创 2021-10-20 16:21:07 · 2444 阅读 · 2 评论 -
BERT学习笔记(4)——小白版ELMo and BERT
由于我没有读过原论文,该博客写的内容几乎来自于李宏毅老师的BERT课程,链接放在的最后。该博客用于梳理笔记,以便后面复习的时候使用。如果后面读了相关论文或者有了新的理解会进行更改补充。由于是小白版本的内容,所以不会涉及到任何公式,仅用于理解该模型的作用。目录1 ELMo2 BERT2.1 Why Encoder?2.2 BERT如何做pre-train2.2.1 Masked LM2.2.2 Next Sentence Prediction2.3 BERT的下游任务2.3.1 文本分类任务2.3.2.原创 2021-09-01 17:36:47 · 595 阅读 · 0 评论 -
BERT学习笔记(2)——Transformer
由于我没有读过原论文,该博客写的内容几乎来自于李宏毅老师的Transformer课程,链接在这里:《台大李宏毅21年机器学习课程 self-attention和transformer》。该博客用于梳理笔记,以便后面复习的时候使用。如果后面读了相关论文或者有了新的理解会进行更改补充。目录1 简介2 Encoder3 Decoder4 参考1 简介Transformer是一个Seq2seq(sequence to sequence)模型,其实质上是一个Encoder和Decoder的结合。其简略结构图.原创 2021-08-24 16:07:03 · 427 阅读 · 0 评论 -
BERT学习笔记(1)——self-attention
由于我没有读过原论文,该博客写的内容几乎来自于李宏毅老师的self-attention课程,链接在这里:《台大李宏毅21年机器学习课程 self-attention和transformer》。该博客用于梳理笔记,以便后面复习的时候使用。如果后面读了相关论文或者有了新的理解会进行更改补充。目录1 self-attention的思想及框架2 self-attention工作流程3 Multi-head self-attension4 几个tricks5 参考1 self-attention的思想及框架.原创 2021-08-18 17:55:26 · 638 阅读 · 0 评论 -
GloVe原理与公式讲解
GloVe是2014年提出的一种词嵌入方法,结合了矩阵分解以及上下文窗口两种词嵌入方法。相较于Word2Vec而言,其论文写得很清晰。本文主要是整理了该论文中的内容。对了宝贝儿们,卑微小李的公众号【野指针小李】已开通,期待与你一起探讨学术哟~摸摸大!目录1 背景知识1.1 基于矩阵分解的词嵌入技术1.2 基于局部窗口的词嵌入技术2 GloVe2.1 共现概率矩阵2.1.1 共现概率矩阵构建2.2 目标函数构建3 参考1 背景知识GloVe是结合了基于矩阵分解的词嵌入技术以及基于局部窗口的词嵌入技.原创 2021-07-07 10:43:26 · 1799 阅读 · 4 评论 -
Word2Vec之Hierarchical Softmax与Negative Sampling
对了宝贝儿们,卑微小李的公众号【野指针小李】已开通,期待与你一起探讨学术哟~摸摸大!如果有需要Word2Vec原理与公式推导的同学可以移步:Word2Vec原理与公式详细推导。为了方便大家看参考资料,这里同样重新弄出来:[1]Rong Xin. word2vec Parameter Learning Explained[J]. CoRR, abs/1411.2738, 2014.[2]皮果提.word2vec 中的数学原理详解(四)基于 Hierarchical Softmax 的模原创 2021-05-03 22:04:29 · 716 阅读 · 0 评论 -
Word2Vec原理与公式详细推导
嗯,为了方便大家找到参考资料,我这里重新贴在最下面:[1]皮果提.word2vec中的数学原理详解(二)预备知识[EB/OL]. (2014-07-19)[2021-04-25]. https://blog.csdn.net/itplus/article/details/37969635[2]皮果提.word2vec中的数学原理详解(三)背景知识[EB/OL]. (2014-07-19)[2021-04-25]. https://blog.csdn.net/itplus/article...原创 2021-04-28 18:30:50 · 2205 阅读 · 19 评论 -
概率论与数理统计学习笔记(5)——极大似然估计
在机器学习与深度学习中,特别是"模型已定,参数未知"的情况下,普遍使用最大似然估计法学习参数。为了后面学习中能够找得到地方复习这些概率论知识,所以这里整理了极大似然估计的笔记,所有参考内容放在最后。对了宝贝儿们,卑微小李的公众号【野指针小李】已开通,期待与你一起探讨学术哟~摸摸大!目录1 似然与概率2 似然函数3 极大似然估计4 参考1 似然与概率似然(likelihood)与概率(probability)虽然经常在概率论中出现,但是我们看到两者名字是不同的,所以其含义是不同的。在我个人的知识.原创 2021-04-20 12:07:57 · 1279 阅读 · 0 评论 -
神经网络学习笔记(4)——期望与算术平均值的区别、方差与均方误差的区别
本来说直接看BP算法的代码的,但是看书的时候又确实遇到了这两个东西,所以就先记上这么一个学习笔记。虽然这种纯数学的东西放在神经网络的学习笔记中好像也不太对,但是确实是学习神经网络的时候遇到的,所以就勉强记录在内。目录期望与算数平均数方差与均方误差期望与算数平均数无论是期望还是算数平均数,从大的概念来说都是求的一个均值,不过建立在的不同的基础上。我们来看一个样本数为100的样本集合{(x1,p1),(x2,p2),⋅⋅⋅,(x100,p100)}\{(x_1,p_1),(x_2,p_2),···.原创 2020-10-05 12:48:39 · 4338 阅读 · 0 评论 -
神经网络学习笔记(3)——梯度下降公式讲解与反向传播算法
结合上上两篇文章的叙述,这一篇文章主要讲解梯度的公式的推导,笔记来自于3B1B的视频,链接会放在最后。同样的,这一篇文章依旧没有代码。上篇文章中稍稍写漏了点东西,就是说在梯度下降过程中,步长是与该点的斜率有关,如果无关的话,那么如果步长太大,是不是就从坑中心滚过去了呀?比如这样:下面开始正文。每层只有一个神经元根据上篇文章的内容,梯度会有正有负,代表的意思就是这个点该如何移动。而每一项的相对大小告诉了改变哪个值影响更大。如下图所示:由于在神经网络中,我们的经验风险是在最后一步才求得的,那.原创 2020-10-02 22:30:45 · 965 阅读 · 0 评论 -
神经网络学习笔记(2)——代价函数与梯度下降简介
同样的,这篇还是纯理论,不涉及代码部分。有些地方我也没有深究,所以有可能会有错误,如有错误,请麻烦指正。目录代价函数梯度下降梯度偏导数方向导数公式:参考结合上篇文章的内容,我们不妨来想一下,在最开始的时候,整个网络是混乱的,那么我们要怎样才能找到最合适的权重和偏置呢?由于神经网络是需要学习的,所以学习的过程就是找到最合适的权重和偏置。于是我们就要引入代价函数。代价函数继续借用3B1B的栗子,假设我们输入的图片是手写的3,想要获得的结果是3,输出层灰度值与期望值如下:代价(cost)也称作.原创 2020-10-02 15:37:59 · 661 阅读 · 0 评论 -
神经网络学习笔记(1)——神经元与激活函数简介
作为一个第一次了解神经网络的学生来说,这一块基本上就是搬运的网上各个资源的内容,如果后续在使用和学习的过程中有了新的理解和感悟再来做更深入的补充。这一块由于才开始接触理论,就还没有运用代码实现出来,后续撸了代码出来后再补上。最后日常吹3B1B,3B1B永远滴神!目录神经网络简单介绍神经元与激活函数参考神经网络简单介绍由于我的规划是先看神经网络(包括概念与梯度下降),再看word2vec、RNN、LSTM,所以现在也不清楚神经网络放在NLP中是怎样输入输出的,我就以3B1B的栗子来简单讲解下神.原创 2020-09-30 17:39:30 · 3230 阅读 · 0 评论