我是小蔡呀～～～-CSDN博客

原创【论文精度】ViT(AN IMAGE IS WORTH 16*16 WORDS:TRANSFORMERS FOR IMAGE RECOGNITION AT SCALE)

虽然transformer已经成为nlp领域的一个标准，但用transformer做cv方面的任务还是很有限的。在视觉中，注意力机制要么是和cnn结合一起用，要么是保持整体结构不变的情况下替换一些cnn组件。本文证明了对cnn的依赖是没有必要的，在一个图像分类任务中，将一个单纯的transformer直接应用在图像块中也是可以表现的非常好。尤其是在大规模数据上作预训练后迁移到中小型数据集上时，ViT能获得与SOTA CNN相媲美的结果。

2023-05-30 18:56:12 358 1

原创 DenseNet与ResNet

起到压缩模型的作用。在标准的卷积网络中，最终输出只会利用提取最高层次的特征，而在DenseNet中，使用了不同层次的特征，倾向于给出更平滑的决策边界。采用密集连接机制，即互相连接所有的层，每个层都会与前面所有层在channel维度上连接在一起，实现特征重用，作为下一层的输入。，DenseBlock中各个层卷积之后均输出k个特征图，即得到的特征图的channel数为k，那么l层输入的channel数为。1✖️1 Conv的作用是固定输出通道数，达到降维的作用，其输出的通道数通常是GrowthRate的4倍。

2023-05-12 11:10:55 1218 1

原创【论文精度（李沐老师）】Deep Residual Learning for Image Recognition

残差网络

2023-04-25 21:07:37 998

原创【动手学习深度学习】Python如何查阅文档

在jupyter中，我们可以使用？指令在另一个浏览器窗口中显示文档，list?与 help(list)相同，list?将显示实现该函数的python代码。

2023-04-20 16:28:25 210

原创【动手学习深度学习】概率+代码实现

简单来说，机器学习就是做出预测。

2023-04-20 16:14:38 318

原创词的表示方法笔记——词向量+代码练习

独热编码是一种将单词转化为稀疏向量的方法，其中每个单词都表示为一个只有一个元素为1其余元素均为0的向量，其维度由词库的大小决定。例如，对于包含 4个单词的词汇表 [tapple, banana, orange, peach] 单词“banana”的独热编码为[0,1,0,0]。通过词向量，可以将自然语言处理中的单词转化为计算机可以处理的数字形式，从而便于进行文本分类、情感分析、机器翻译等任务。（1）纬度灾难，有多少个词语我们的维度就多大，对于庞大的语料库来说，存储量和计算量都是问题；（1）没有考虑多义词；

2023-04-19 21:32:43 911

原创【动手学习深度学习】微积分代码练习

注释#@save是一个特殊的标记，会将对应的函数、类或语句保存在d2l包中。因此，以后无需重新定义就可以直接调用它们（例如，d2l.use_svg_display()）。定义函数，画出函数和x=1时点的切线。

2023-04-17 18:56:29 298

原创【动手学习深度学习】线性代数代码实现

L1范数，向量元素绝对值之和，受异常值的影响较小。

2023-04-16 20:09:01 211

原创【论文精读（李沐老师）】BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding

我们介绍了一个新的语言表示模型BERT，这个名字来自于双向的transformer编码器表示。和最近语言表示的模型不同（ELMo、GPT），BERT是被训练深的双向表示，用的是没有标号的数据，然后再连接左右的上下文信息。因为我们的设计，导致我们训练好的BERT只需要额外的加一个输出层，就可以使得在很多nlp的任务上得到一个不错的结果，比如问答、语言推理，且不需要对任务做一些特别的架构上的改动。BERT在概念上更加简单，在实验上更加好。他在11个NLP的任务上得到了新的最好的结果。。

2023-04-10 20:35:09 569 2

原创【动手学习深度学习】数据预处理

练习使⽤pandas预处理原始数据，并将原始数据转换为张量格式。

2023-04-10 13:33:08 170

原创【动手学习深度学习】数据操作+代码练习

pytorch数据基本操作

2023-04-10 12:37:40 272

原创模型选择+过拟合和欠拟合

过拟合＋欠拟合

2023-04-03 14:38:59 325

原创【论文精度（李沐老师）】Generative Adversarial Nets

GAN 生成对抗网络

2023-04-01 19:55:04 889 3

原创【论文精读（李沐老师）】Attention Is All You Need

transformer

2023-03-30 14:01:35 858

原创模型Summary——李宏毅人类语言处理

summary

2022-12-29 18:09:03 248

原创 Monotonic Chunkwise Attention(MoChA)——李宏毅人类语言处理

MoChA

2022-12-29 18:07:01 513

原创 Neural Transducer——李宏毅人类语言学习

Neural Transducer

2022-12-26 17:42:13 415

原创 RNN Transducer(RNN-T)——李宏毅人类语言处理学习笔记

RNN-ARNN-T

2022-12-26 17:19:55 2998

原创训练seq2seq模型的一些Tips——李宏毅机器学习笔记

seq2seq训练时候的小tips

2022-12-22 00:36:08 686

原创【Transformer】——李宏毅机器学习笔记

Transformer

2022-12-21 23:35:47 2163

原创 Java实训笔记（2022/12/8）

面向对象面向过程类与对象map set list封装继承方法重写多态抽象接口Object 内部类匿名类匿名内部类

2022-12-08 15:55:09 523

原创 seq2seq与end2end的区别

seq2seq与end2end的区别

2022-12-07 10:01:29 499

原创 Batch Normalization——李宏毅机器学习笔记

batch normalization

2022-12-05 14:56:05 960

原创损失函数（均方损失L2 Loss，L1 Loss，鲁棒损失）

损失函数（L1 Loss，L2 Loss，鲁棒损失）蓝色：y=0，y’变化。代表了y’对y的偏离程度。绿色：e^(-L) ，损失函数的似然函数，似然函数：用样本求模型的参数以获取总体分布。代表y’在哪里取值时，这个y’对应的参数概率是最大的。橙色：损失函数的梯度梯度下降中，我们是根据它的负梯度方向来更新参数，所以其导数决定了如何更新我们的参数，即决定了每次更新的step，梯度越大参数更新的力度越大，反正亦然。但是有时我们并不像梯度较大时，step较大，此时可以用L1 Loss。定义：绝对

2022-12-04 16:29:57 737

原创 Connectionist Temporal Classification（CTC）——李宏毅人类语言处理学习笔记

CTC介绍及其issue

2022-12-03 21:33:36 531

原创 Softmax回归——动手学深度学习笔记

softmax，交叉熵

2022-12-03 20:56:13 908

原创【Recurrent Neural Network(RNN)】循环神经网络——李宏毅机器学习阅读笔记

RNN LSTM

2022-12-02 17:44:18 1008

原创 Listen,Attend,and Spell(LAS)——李宏毅人类语言处理学习笔记

LAS

2022-11-28 21:37:44 669

原创 Self-attention自注意力机制——李宏毅机器学习笔记

介绍了self-attention、multiself-attention，并说明了self-attention和CNN、RNN不同之处。

2022-11-28 15:39:40 1027

原创课程概述——李宏毅人类语言处理笔记2

自然语言处理

2022-11-26 16:42:35 168

原创课程概述——李宏毅人类语言处理笔记1

自然语言处理笔记

2022-11-25 22:42:43 673

原创卷积神经网络（CNN）——李宏毅机器学习笔记

卷积神经网络（1）特征提取（2）共享参数（3）池化

2022-11-25 00:03:33 907

原创空洞卷积/扩张卷积（Dilated convolution)-笔记

空洞卷积的概念、缺点极其解决方案

2022-11-18 09:16:49 587

原创基于循环神经网络的藏语语音识别声学模型——阅读笔记

探索将循环神经网络和连接时序分类算法应用于藏语语音识别声学建模，实现端到端的模型训练。同时根据声学建模输入与输出的关系，通过在隐含层输出序列上引入时域卷积操作来对网络隐含层时域展开步数进行约简，从而有效提升模型的训练与解码效率。实验结果显示，与传统基于隐马尔可夫模型的声学建模方法相比，循环神经网络模型在藏语拉萨话音素识别任务上具有更好的识别性能，而引入时域卷积操作的循环神经网络声学模型在保持同等识别性能的情况下，拥有更高的训练和解码效率。...

2022-07-10 11:00:46 1366

原创基于瓶颈特征的藏语拉萨话连续语音识别研究——阅读笔记

基于从深度神经网络提取的瓶颈特征具有语音长时相关性和紧凑表示的特点，将瓶颈特征及其与MFCC的复合特征用于藏语连续语音识别任务中，可以代替传统的MFCC特征进行GMM-HMM声学建模。在藏语拉萨话连续语音识别任务中的实验表明，瓶颈特征的复合特征取得比深度神经网络后验特征和单瓶颈特征更好的识别表现。......

2022-07-03 16:36:58 983

原创语音识别研究综述——阅读笔记4（总结与展望）

语音识别研究综述（总结与展望）

2022-06-18 11:35:31 890

原创语音识别研究综述——阅读笔记3（端到端语音识别、语音识别的难度与热点）

端到端语音识别语音识别的难度与热点

2022-06-18 11:15:27 1129

原创语音识别研究综述——阅读笔记2

语音识别概念语音识别基本原理声学模型语言模型

2022-06-17 19:28:35 578

原创语音识别研究综述——阅读笔记1

摘要：语音识别使声音变得“可读”，让计算机能够“听懂”人类的语言并做出反应，是人工智能实现人机交互的关键技术之一。本文介绍了语音识别的发展历程，阐述了语音识别的原理概念与基础框架，分析了语音识别领域的研究热点和难点，最后，对语音识别技术进行了总结并就其未来研究进行了展望。.....................

2022-06-13 18:08:12 698

原创（MATLAB）使用梯度下降进行一元线性回归

使用梯度下降进行一元线性回归Step1：选择函数模型：Step2：选择损失函数：式中m为样本个数，为第i个样本，为第i个样本的真实值；Step3：设定初始值，—权值，—偏执项，—学习率，n—迭代次数；Step4：根据公式：来更新w和b，最终得到最优解。............

2021-07-08 17:45:37 1481 1

bikesharing.zip

bikesharing.zip

OSError: [Errno 5] Input/output error

conda update --all后conda不能使用！