RethinkFun深度学习
文章平均质量分 83
Allenlzcoder
拒绝拖延症!!!
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
Part9.第15章:Transformer--实现翻译模型源码
如何利用BPE算法构建NLP模型的词典。这里我们就来实际构建一次。首先你需要安装sentencepiece这个包,然后运行下边代码来分别生成英文和中文的词典。【参数说明】–character_coverage参数是覆盖多少用字符集,因为英文单个字符有限,所以我们设置为1.0。但是中文有很多生僻字,所以我们设置为0.9995防止词表被大量生僻词占用。vocab_size=16000参数是设置词表的大小,我们都设置为16000。因为英语基本字符有限,中文基本字符较多,字符组合可能较多,需要分别统计频原创 2025-12-08 02:59:04 · 904 阅读 · 0 评论 -
Part9.第15章:Transformer(下)
左半部分是编码器Encoder部分,右边部分是解码器Decoder部分。原创 2025-12-01 17:46:13 · 266 阅读 · 0 评论 -
Part8.第15章:Transformer(上)
Transformer与全连接前馈网络(FFN)、卷积神经网络(CNN)、循环神经网络(RNN)并称为深度学习的四大核心架构。原创 2025-11-09 03:58:44 · 195 阅读 · 0 评论 -
Part6.第12章
在进行NLP任务时,因为输入的是文本序列。文本是由多个词构成的,词是有意义的最小单元,所以。原创 2025-11-06 02:56:21 · 209 阅读 · 0 评论 -
Part5.第10-11章:卷积神经网络
原创 2025-11-06 02:19:10 · 106 阅读 · 0 评论 -
信息量和信息熵
信息量越大-抽到这个结果的概率很低-不确定性越高-信息价值越高信息量:抽到当前事件带来的信息价值,一般是概率越小,带来的价值越大,这次抽样所能排除法的不确定也就越大信息熵:一个系统信息量的数学期望。一般一个系统的期望信息量越大,代表单次抽样抽到这个期望的概率很小,代表系统越混乱,不确定性越高。一个系统如果在样本种类确定的情况下,抽样概率越平均,信息熵越大,因为每次抽样结果都有最大的概率与其他几次不同,所以增大了抽样结果的不确定性信息的作用是消除不确定性。一句话的信息量和它能消除的不确定性有关。原创 2025-11-03 00:56:47 · 452 阅读 · 0 评论 -
Part4.第8-9章:神经网络
如果没有激活函数,不论几层的神经网络都是一个线性回归。原创 2025-09-16 02:02:13 · 271 阅读 · 0 评论 -
Part3.第7章
千万不要被逻辑回归里的“回归”误导,逻辑回归是一个问题的算法。通过上边的学习,我们知道一元逻辑回归模型的假设函数为:其中的w和b参数会对标准的Sigmoid函数曲线进行平移,翻转,缩放等。最终将输出映射到[0,1]。。这个Sigmoid函数叫做激活函数。这个非线性的函数我们就叫做激活函数。激活函数的作用就是在线性函数的基础上增加了非线性。原创 2025-09-14 20:50:57 · 873 阅读 · 0 评论 -
Part2.第6章
PyTorch把对数据的存储和操作都封装在Tensor里。PyTorch里的模型训练的输入输出数据,模型的参数,都是用Tensor来表示的。Tensor在操作方面和NumPy的ndarray是非常类似的。不同的是Tensor还实现了像等PyTorch的核心功能。Tensor是PyTorch里对。:单个数,比如 torch.tensor(3.14):一列数,比如 torch.tensor([1,2,3]):行列数据,比如 torch.tensor([[1,2],[3,4]])原创 2025-09-14 01:49:18 · 882 阅读 · 0 评论 -
Patr1.第1-5章
视频教程电子书在作者的教程附带的数据和源代码,在可供下载。原创 2025-09-06 17:08:36 · 194 阅读 · 0 评论
分享