自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(84)
  • 问答 (1)
  • 收藏
  • 关注

原创 Pytorch编写Transformer

本文参考自在学习了图解Transformer以后,需要用Pytorch编写Transformer,下面是写代码的过程中的总结,结构根据图解Transformer进行说明。

2024-06-19 21:28:21 1042

原创 图解Transformer学习笔记

教程是来自。

2024-06-15 10:07:11 1281

原创 图解Attention学习笔记

教程是来自。

2024-06-14 16:24:30 985

原创 Training language models to follow instructions with human feedback 论文阅读

语言模型越大并不意味着它能更好的理解用户的意图,因此在这篇论文中,展示了根据人的反馈对模型进行微调,使得语言模型能够在各种人物上更好的理解用户的意图。在评估中,1.3B参数的InstructGPT模型的输出比175B GPT-3的输出更受欢迎,尽管参数少了100倍。此外,InstructGPT模型虽然在公共的数据上的效果有所降低,但是真实性和减少有害方面生成的能力提升。论文表明,尽管InstructGPT仍然会犯一些简单的错误,但根据人类反馈进行微调是能够理解人类意图的一个有效的方式和方向。

2024-06-14 08:36:54 840

原创 NLP实战入门——文本分类任务(TextRNN,TextCNN,TextRNN_Att,TextRCNN,FastText,DPCNN,BERT,ERNIE)

本文参考自,是为了进行NLP的一些典型模型的总结和尝试。

2024-06-09 23:18:45 1955

原创 NLP基础知识讲解比较清楚的文章

这里作为网址记录,用于自己学习。

2024-06-07 17:26:35 273

原创 人类语言处理nlp部分笔记——四、GPT3

GPT-3是一个language model,它的参数量相当巨大,是ELMO的2000倍。

2024-06-07 17:10:15 550

原创 人类语言处理nlp部分笔记——三、BERT和它的家族-ELMo,BERT,GPT,XLNet,MASS,BART,UniLM,ELECTRA等

参考自李宏毅课程-人类语言处理。

2024-06-07 16:51:17 975

原创 人类语言处理nlp部分笔记——二、BERT和它的家族-介绍和微调

这里所说的pre-train model是输入一串tokens,能够输出一串vectors,且每个vector可以表示对应的语义的模型,这些vectors也被称作为embeddings。以前常用的模型有word2vec,Glove等,这里并没有详细介绍,之后需要单独去看,由于英文单词太多了,只要来一个新单词,整个embedding的模型就需要重新train,为了解决这个问题,有了fasttext。

2024-06-07 12:36:57 988

原创 人类语言处理nlp部分笔记——一、NLP任务总览

参考自李宏毅课程-人类语言处理。

2024-06-07 10:50:12 1232

原创 course-nlp——8-translation-transformer

本文参考自https://github.com/fastai/course-nlp。

2024-06-06 21:30:55 698

原创 course-nlp——7-seq2seq-translation

本文参考自https://github.com/fastai/course-nlp。

2024-06-06 21:15:39 884

原创 course-nlp——6-rnn-english-numbers

本文参考自https://github.com/fastai/course-nlp。

2024-06-06 19:09:24 1173

原创 course-nlp——5-nn-imdb

在 NVIDIA RTX-2070 GPU 上,这大约需要半小时,,,,,,,,learn: ...alpha: 2.0learn: ...clip: None此时我们已经超越了 2017 年(迁移学习之前)的最先进水平!

2024-06-06 17:13:26 1207

原创 course-nlp——4-regex

正则表达式是一种模式匹配语言。您可以写 [0-9] 或 \d,而不是 0 1 2 3 4 5 6 7 8 9它是领域特定语言 (DSL)。功能强大(但语言有限)。您还了解哪些其他 DSL?SQLMarkdownTensorFlow正则表达式在从文本(例如代码、日志文件、电子表格甚至文档)中提取信息时非常有用。虽然形式语言背后有很多理论,但以下课程和示例将探索正则表达式的更实际用途,以便您尽快使用它们。

2024-06-06 11:29:57 1795

原创 course-nlp——2-svd-nmf-topic-modeling

本文参考自。

2024-06-05 22:14:01 1021

原创 神经网络与深度学习——第15章 序列生成模型

本文讨论的内容参考自《神经网络与深度学习》https://nndl.github.io/ 第15章 序列生成模型,习题还没做先存在这里。

2024-06-04 21:25:04 411

原创 chap7 seq2seq and attention

因为训练数据中有各种大小的句子,为了实际创建和训练这一层,我们必须选择它可以应用的最大句子长度(对于编码器输出来说,输入长度)。网络的输出,它们阅读时语法连贯,但偏离了正确的翻译——从直觉上讲,它已经学会了表示输出的语法,并且可以在教师告诉它前几个单词时“拾取”意思,但它还没有正确地学会如何从翻译中创建句子。为了训练,对于每个对,我们将需要一个输入张量(输入句子中单词的索引)和目标张量(目标句子中单词的索引)。我们需要每个单词的唯一索引,以便用作网络的输入和目标,为了跟踪这一切,将使用一个名为。

2024-06-03 19:48:38 965

原创 神经网络与深度学习——第8章 注意力机制与外部记忆

假设隐藏神经元的数量为DDD,输入层的维数为MMM,分析一下LSTM结构,遗忘门那里接收上一时刻的隐藏状态ht−1h_{t-1}ht−1​和输入xt{x_t}xt​,权重矩阵为WfW_fWf​,即ftσWf⋅ht−1xtbfσUfht−1wfxtbfft​σWf​⋅ht−1​xt​bf​σUf​ht−1​wf​xt​bf​WfW_fWf。

2024-06-03 12:32:37 1109

原创 chap6 RNN

利用循环神经网络,实现唐诗生成任务。

2024-06-02 14:12:08 367

原创 神经网络与深度学习——第7章 网络优化与正则化

代入可知,可以看作是真正的学习率,如果不成正比,那么会出现过大或者过小的情况,使参数更新不稳定或者过慢。可以看出,如果β1\beta_1β1​和β2\beta_2β2​都接近1,Mt\hat M_tMt​接近MtM_tMt​Gt\hat G_tGt​接近GtG_tGt​,当M00G00M0​0G0​0,初期的均值和未减去均值的方差都很大,因为ttt。

2024-06-02 11:15:35 2550

原创 神经网络与深度学习——第6章 循环神经网络

延时神经网络是对前馈神经网络增加延时器,当前层的神经元的活性值依赖于前一层神经元的最近K个时刻的活性值;卷积神经网络是对前馈神经网络增加卷积层和池化层;循环神经网络是对前馈神经网络增加自反馈的神经元,RNN当前时刻的活性值通常依赖于之前所有时刻的活性值,因为通过循环连接来传递信息。卷积神经网络没有时序性的概念,循环神经网络具有时序性,如果我们并不在意前一个决策结果是什么,用CNN,比如手写数字识别,在自然语言处理中,上一个词很大程度影响下一个词,可以用RNN。

2024-06-01 20:17:13 770

原创 反向传播算法的详细推导

反向传播算法的详细推导

2024-06-01 14:35:42 340

原创 chap5 CNN

利用卷积神经网络,实现对MNIST数据集的分类问题。

2024-05-31 20:17:10 398

原创 神经网络与深度学习——第5章 卷积神经网络

这里解释一下(2),平均汇聚是相加然后乘以一个可训练参数,再加上一个可训练偏置,因此可训练参数的数量是6∗116∗11,而连接数是6∗14∗14∗2∗216∗14∗14∗2∗21,这里包括了偏置在内。(3)C3这里使用了60个卷积核,为什么只得到了16个特征图,而不是60个特征图,这是LeNet-5的特殊的连接,连接表如下:(5)C5卷积层是使用了120*16个二维的5X55X55X5的卷积核,实际上就是120个三维的5X5X。

2024-05-31 18:28:55 829

原创 chap4 simple neural network

利用numpy和pytorch搭建全连接神经网络。使用numpy实现此练习需要自己手动求导,而pytorch具有自动求导机制。我们首先先手动算一下反向传播的过程,使用的模型和初始化权重、偏差和训练用的输入和输出值如下:我们看一下正向过程:计算出每个隐藏神经元的输入,通过激活函数(用Sigmoid函数)转换为下一层的输入,直到达到输出层计算最终输出:先来计算隐藏层h_1的输入,zh1​​ω1​x1​ω2​x2​11∗1−2∗−114。

2024-05-31 14:06:12 1284

原创 神经网络与深度学习——第4章 前馈神经网络

如果进行0均值化,那么输入的x\bm xx要么大于0要么小于0,在0附近,sigmoid函数的导数在0附近是最大的,所以收敛速度很快。当输入恒大于0的时候,均值肯定大于0,那么有可能就到了sigmoid函数的平缓部分,所以收敛速度更慢。XOR问题即异或问题,有0XOR000XOR000XOR110XOR111XOR011XOR011XOR101XOR10。

2024-05-30 21:06:54 1172

原创 chap3 softmax_regression

填空一:实现sigmoid的交叉熵损失函数(不使用tf内置的loss 函数)建立模型类,定义loss函数,定义一步梯度下降过程函数。实例化一个模型,进行训练。

2024-05-30 16:13:21 200

原创 神经网络与深度学习——第3章 线性模型

线性模型线性模型(Linear Model)是机器学习中应用最广泛的模型,指通过样本特征的线性组合来进行预测的模型,给定一个DDD维样本x=[x1,...,xD]T\bm x = [x_1,...,x_D]^Tx=[x1​,...,xD​]T,其线性组合函数为在分类问题中,由于输出目标yyy是一些离散的标签,而f(x;ω)f(\bm x;\bm \omega)f(x;ω)的值域为实数,因此无法直接用f(x;ω)f(\bm x;\bm \omega)f(x;ω)来进行预测,需要引入一个非线性的决策函数g

2024-05-30 13:59:25 1495 2

原创 chap1 numpy exercise

9.建立矩阵a ,初始化为[[1, 2, 3], [4, 5, 6], [7, 8, 9], [10, 11, 12]],输出(0,0),(1,2),(2,0),(3,1) (提示使用 b = np.array([0, 2, 0, 1]) print(a[np.arange(4), b]))3.建立一个二维数组 b,初始化为 [ [4, 5, 6],[1, 2, 3]] (1)输出各维度的大小(shape)(2)输出 b(0,0),b(0,1),b(1,1) 这三个元素(对应值分别为4,5,2)

2024-05-29 18:45:06 587

原创 神经网络与深度学习——第14章 深度强化学习

本文讨论的内容参考自《神经网络与深度学习》https://nndl.github.io/ 第14章 深度强化学习深度强化学习强化学习(Reinforcement Learning,RL),也叫增强学习,是指一类从与环境交互中不断学习的问题以及解决这类问题的方法,强化学习可以描述为一个智能体从与环境交互中不断学习以完成特定目标(比如取得最大奖励值)。和深度学习类似,强化学习中的关键问题也是贡献度分配问题(即一个系统中不同的组件(component)对最终输出结果的贡献或影响),每一个动作并不能直接得到监督

2024-05-29 15:49:22 1451

原创 Pytorch入门需要达到的效果

都是常用的激活函数,

2024-05-28 20:04:31 617

原创 torch.matmul()的用法

【代码】torch.matmul()的用法。

2024-05-28 18:24:28 183

原创 Pytorch深度学习快速入门——P14-P33

本文参考小土堆教程视频。

2024-05-28 17:28:58 87

原创 PyTorch深度学习快速入门——P1-P13

当报错的时候移到那里,快捷修复,没导入包的时候好用想查看属性和方法的时候移过去按住,点击,即可跳转想查看方法要输入什么参数的时候使用读取图片,演示了一下的做法,继承了之后实现和方法,图片文件加目录为Tensorboard的使用在输入以下指令查看,可以自己定义文件夹名和端口号:均是在利用处理图片,然后用查看中间结果。Pycharm的断点失灵这个问题还没解决,不知道为什么断点无效,错误信息如下:是没问题的,但不知道为什么不行。

2024-05-26 19:37:49 958

原创 数据分析案例——电商平台数据集

数据来源于阿里云天池,为淘宝app平台在2014年11月18日-12月18日的数据。

2024-05-24 10:54:41 634

原创 第14章 数据分析案例——2012联邦选举委员会数据库

美国联邦选举委员会发布了有关政治竞选赞助方面的数据。其中包括赞助者的姓名、职业、雇主、地址以及出资额等信息。我们对2012年美国总统大选的数据集比较感兴趣。该DataFrame你可能已经想出了许多办法从这些竞选赞助数据中抽取有关赞助人和赞助模式的统计信息。我将在接下来的内容中介绍几种不同的分析工作(运用到目前为止已经学到的方法)。不难看出,该数据中没有党派信息,因此最好把它加进去。通过unique现在,通过这个映射以及Series对象的map这里有两个需要注意的地方。由于和。

2024-05-23 11:23:46 812

原创 第14章 数据分析案例——1880-2010年间全美婴儿姓名

2007年,一名婴儿姓名研究人员在她自己的网站上指出():近百年来,男孩名字在最后一个字母上的分布发生了显著的变化。sex year# 设置 seaborn 的默认风格sns.set()可以看出,从20世纪60年代开始,以字母"n"结尾的男孩名字出现了显著的增长。有了这个时间序列的DataFrame之后,就可以通过其plot。

2024-05-22 13:03:48 1184

原创 第14章 数据分析案例——MovieLens 1M数据集

本文介绍数据分析案例——MovieLens 1M数据集GroupLens Research(http://www.grouplens.org/node/73)采集了一组从20世纪90年末到21世纪初由MovieLens用户提供的电影评分数据。这些数据中包括电影评分、电影元数据(风格类型和年代)以及关于用户的人口统计学数据(年龄、邮编、性别和职业等)。基于机器学习算法的推荐系统一般都会对此类数据感兴趣。虽然我不会在本书中详细介绍机器学习技术,但我会告诉你如何对这种数据进行切片切块以满足实际需求。数据集含有来自

2024-05-21 22:09:17 1271

原创 279. 完全平方数 & 322. 零钱兑换(最少硬币找零问题)

这个问题是动态规划中的“最小硬币找零问题”,其中目标是找到组成特定金额的最小硬币数量,每种硬币可以无限次使用。完全平方数是一个整数,其值等于另一个整数的平方;换句话说,其值等于一个整数自乘的积。的完全平方数的最少数量。

2024-05-21 20:28:30 156

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除