人工智能读书笔记
文章平均质量分 95
人工智能读书笔记
神洛华
这个作者很懒,什么都没留下…
展开
-
学习笔记九:BERT和它的小伙伴们
车万翔《基于预训练模型的自然语言处理》读书笔记文章目录1.BERT的可解释性(7.5)1.2 自注意力可视化分析(不同注意力头的行为)1.3 探针实验二、模型优化1.1 XLNet1.1.2 排列语言模型的引入1.2 RoBERTa1.3 ALBERT(降低BERT参数+SOP)1.4 ELECTRA1.5 MacBERT2. 长文本处理1.BERT的可解释性(7.5) 对很多实际应用而言,模型的性能和可解释性都很重要。BERT类的预训练模型体量庞大,参数众多,预测行为难以理解和不可控。 解释性原创 2022-05-06 09:56:06 · 563 阅读 · 0 评论 -
学习笔记八:transformer面试点
文章目录零、基础知识0.1 线性变换0.2 点积、内积、外积、余弦相似度、投影(有空补)一、transformer1.1 为啥FFNN第一层将向量扩维到4倍1.2 注意力机制是为了解决什么问题而提出来的?1.3 为什么输入X要经过权重矩阵变换得到QKV向量?为啥不直接用X运算?1.3不考虑多头的原因,self-attention中词向量不乘QKV参数矩阵,会有什么问题?1.4 transformer中为啥要有那么多dropout?1.5 NLP 中的Mask全解1.6 Self-Attention 的时间复原创 2022-05-06 09:53:30 · 3010 阅读 · 3 评论 -
学习笔记七:transformer总结(1)
文章目录一、attention1.1循环神经网络的不足:1.2 attention在机器翻译的优点1.3 self Attention和循环神经网络对比1.4为什么求内积之后除以d\sqrt{d}d1.5 slef-attention过程1.6 多头注意力可视化二、transformers2.1 自注意力模型的缺点及transformer的提出2.2 模型具体结构2.2.1 Encoder Layer2.2.2 Transformer layer组成Encoder2.2.3 TransformerDeco原创 2022-05-06 09:52:32 · 984 阅读 · 0 评论 -
学习笔记六——循环神经网络
文章目录一、RNN1.1 RNN模型结构1.2 RNN模型的缺点二、长短时记忆网络LSTM2.1 LSTM模型结构2.2 双向循环神经网络Bi-LSTM三、序列到序列模型一、RNN前馈神经网络:信息往一个方向流动。包括MLP和CNN循环神经网络:信息循环流动,网络隐含层输出又作为自身输入,包括RNN、LSTM、GAN等。1.1 RNN模型结构RNN模型结构如下图所示:展开之后相当于堆叠多个共享隐含层参数的前馈神经网络:其输出为:ht=tanh(Wxhxt+bxh+Whhht−1+bhh)原创 2022-05-06 09:51:41 · 1084 阅读 · 0 评论 -
学习笔记五:卷积神经网络(CNN)二
卷积神经网络(CNN)@(深度学习)文章目录卷积神经网络(CNN)(一)卷积神经网络(CNN)模型结构1. CNN的基本结构2. 初识卷积3. CNN中的卷积层4. CNN中的池化层5. CNN模型结构小结(二) 卷积神经网络(CNN)前向传播算法1. 回顾CNN的结构2. CNN输入层前向传播到卷积层3. 隐藏层前向传播到卷积层4. 隐藏层前向传播到池化层5. 隐藏层前向传播到全连接层6. CNN前向传播算法小结(三) 卷积神经网络(CNN)反向传播算法6.1 回顾DNN的反向传播算法6.2 CNN的原创 2022-05-06 09:50:49 · 1022 阅读 · 0 评论 -
学习笔记五:卷积神经网络原理、常见模型
介绍了卷积池化原理、1×1卷积的作用。介绍了VGG、IGoogLeNet、inception、ResNet和ResNeXt。原创 2022-05-06 09:49:08 · 2259 阅读 · 0 评论 -
学习笔记四:word2vec和fasttext
FastText:快速的文本分类器文章目录一、word2vec1.1 word2vec为什么 不用现成的DNN模型1.2 word2vec两种模型:CBOW和Skip-gram1.2 word2vec两种优化解法:霍夫曼树和负采样1.2.2 基于Hierarchical Softmax的CBOW模型算法流程:1.2.3 负采样方法1.3 总结:二、fasttext2.1、简介2.2 FastText原理2.2.1 模型架构2.2.2 层次SoftMax2.2.3 N-gram特征2.2.4 subword原创 2022-05-06 09:47:30 · 1009 阅读 · 2 评论 -
学习笔记三:DNN之优化器、正则、dropout、BN&LN对比
文章目录一、神经网络参数优化器1.2 SGD(无动量)随机梯度下降。1.3 SGDM——引入动量减少震荡1.4 SGD with Nesterov Acceleration1.5 AdaGrad——累积全部梯度,自适应学习率1.6 RMSProp——累积最近时刻梯度1.7 Adam1.8 悬崖、鞍点问题二、过拟合解决方案2.1 正则化2.2 dropout2.3 Batch Normalization2.4 Layer Normalization一、神经网络参数优化器参考曹健《人工智能实践:Tensor原创 2022-05-06 09:46:08 · 924 阅读 · 0 评论 -
学习笔记三:MLP基本原理、矩阵求导术推反向传播、激活函数、Xavier
文章目录一、BP神经网络(MLP)1.1 感知机模型及其局限性1.2 BP神经网络基本原理1.3 softmax多分类、求导1.4 二分类使用softmax还是sigmoid好?1.5 为什么要用激活函数?1.6 梯度下降和链式求导1.7度量学习二、矩阵求导术2.1 标量对向量求导2.2 向量对向量求导2.3 标量对矩阵的矩阵2.4 向量求导及链式法则2.5 BP反向传播2.5 激活函数及其导数三、神经网络调优3.1 激活函数得选型3.2 Relu激活函数及其变体3.3 高斯误差线性单元激活函数gelu3.原创 2022-05-06 09:44:57 · 3357 阅读 · 0 评论 -
速通8-DNN神经网络学习笔记
一个模型先看效果再了解原理。不懂原理也可以得到效果。深度学习原理不是非常清楚,解释性不够强,但是效果比较好。1980高峰,起始1995年,SVM/GBDT,深度学习进入低谷2014-2015,爆发。数据量暴增,计算机性能更好。二分类LR,大部分线性不可分,处理方式:多项式来搞增加维度SVM核方法非线性变换线性变换(例如向量乘以一个矩阵),在空间中表现出来是对一个点进行平移。无法解决线性不可分问题。因为多次线性变换等于一次线性变换。激活函数:如sigmoid函数。对WX进行非线性变换原创 2021-10-21 00:58:12 · 392 阅读 · 0 评论 -
《机器学习》读书笔记1——基本概念
统计学习研究对象:数据基本假设:同类数据有一定的统计规律性,所以可以用概率统计方法处理它们。用随机变量描述数据中的特征,用概率分布描述数据统计规律目的:通过构建概率统计模型,实现对数据的分析和预测统计学习三要素:模型、策略(模型选取准则)和算法(模型学习的算法)统计学习分类监督学习supervised learning:从标注数据中学习预测模型回归:特征和标签都是连续的(输入输出变量)分类:标签是有限个离散变量标注:输入观测序列,输出标记或状态序列。如:隐马尔可夫模原创 2021-09-14 00:41:05 · 367 阅读 · 0 评论 -
学习笔记10:统计学习方法:——HMM和CRF
文章目录一、概率图模型1.1 概览1.2 有向图1.3 无向图1.4 生成式模型和判别式模型1.4.1生成式模型和判别式模型区别1.4.2 为啥判别式模型预测效果更好二、隐式马尔科夫模型HMM2.1 HMM定义2.2 HMM三要素和两个基本假设2.3 HMM三个基本问题2.4 HMM基本解法2.4.1 极大似然估计(根据I和O求λ)2.4.2 前向后向算法(没有I)2.4.3 序列标注(解码)过程三、最大熵马尔科夫MEMM模型3.1 MEMM原理和区别3.2 标注偏置四、条件随机场CRF4.1 CRF定义4原创 2021-12-25 23:32:54 · 1312 阅读 · 0 评论