深度学习计算基础
文章平均质量分 81
此专栏整合深度(机器)学习中的常见算数基础,比如损失函数、反向传播、召回率、精准度、混淆矩阵等计算基础。
四进制
顺着总线,打烂我的中央处理器
展开
-
【自然语言处理】【深度学习】NLP中的N-gram理解
N-gram是自然语言处理(NLP)中的一个概念,它描述的是文本中连续的n个项(通常是单词或字符)。这个概念主要用于语言建模和文本分析中。具体来说:Unigram (1-gram): 包含一个单词的序列,例如句子中的单个单词。Bigram (2-gram): 包含两个相邻单词的序列。例如,在句子 “I love natural language processing” 中,“I love”、“love natural”、“natural language” 等都是bigrams。Trig原创 2024-01-24 20:11:37 · 588 阅读 · 0 评论 -
【深度学习】【BN】batch normalization(批量归一化)详解
批量归一化固定小批量中的均值和方差,后学习出适合的偏移和缩放可以加速收敛速度,但一般不改变模型精度。所以,你可以通过加入BN来调高你的学习率。也许你之前的学习率是0.01,加入BN后你可以调整到0.1。原因:之前梯度太大,上层梯度爆炸;梯度太小,下层更新慢。加入之后,每层放在相似的分布,可以用一个较大的学习率。原创 2024-01-30 01:44:26 · 2304 阅读 · 2 评论 -
【注意力机制】【Transformer】深度学习中的注意力机制详解、self-attention
无论是我们的语言处理、还是图像处理等,我们的输入都可以看作是一个向量。通过Model最终输出结果。这里,我们的vector大小是不会改变的。然而,我们有可能会遇到这样的情况:输入的sequence的长度是不定的怎么处理?声音信号:经过处理,把一段声音变成向量。图:每个节点转化为向量图:分子结构中的每个原子转化为one-hot。原创 2024-01-26 02:45:18 · 1292 阅读 · 1 评论 -
【自然语言处理】【深度学习】文本向量化、one-hot、word embedding编码
因为文本不能够直接被模型计算,所以需要将其转化为向量。原创 2024-01-24 20:17:38 · 687 阅读 · 0 评论 -
【机器学习】【概率论】【损失熵】【KL散度】信息量、香农熵和KL散度的计算
对于一个事件:小概率 --> 大信息量大概率 --> 小信息量独立事件的信息量可以相加Ixlog2px1−log2px))E.g.:ph0.5Iphlog20.511pt0.5Iptlog20.511qh0.2Iqhlog20.212.32qt0.8Iqtlog20.810.32。原创 2024-01-31 19:51:00 · 1235 阅读 · 0 评论