- 博客(148)
- 收藏
- 关注
原创 面试常问系列(一)-神经网络参数初始化-之自注意力机制为什么除以根号d而不是2*根号d或者3*根号d
通过上述的不同缩放比例,大家应该可以比较清晰的发现,以一个标准差(68.26%)为例,随着缩放比例加大,变化范围减小,点击值被过度压缩,导致相对趋于均匀,从而无法很好的捕捉不同特征之间的差异,趋于大家都一样的感觉,区分度被缩小。大家感兴趣的可以实操看一下,softmax在不同缩放比例下的分布情况。
2025-05-06 19:05:57
700
原创 面试常问系列(一)-神经网络参数初始化-之-softmax
Softmax的梯度对输入值敏感,过大输入会导致梯度消失。Transformer通过除以dk控制点积方差,确保Softmax输入值合理,从而保持梯度稳定,提升训练效率。这一设计是深度学习中处理高维数据时的重要技巧。
2025-05-06 18:15:48
1034
原创 面试常问系列(一)-神经网络参数初始化之自注意力机制
除以dk的本质是对点积结果进行方差归一化,确保Softmax的输入值不会随维度增大而失控,从而保持梯度稳定,提升训练效率和模型性能。这一设计是Transformer高效训练的关键细节之一。
2025-03-23 23:36:15
1224
原创 面试常问系列(一)-神经网络参数初始化
Xavier初始化解决的是饱和激活函数(sigmoid/tanh)\但是针对非饱和激活函数,relu等无效。那么针对于relu这种激活函数该怎么办呢?可以使用kaiming初始化。
2025-03-23 17:10:20
1169
原创 自编码/自回归/seq2seq 真的理解了吗?
宏观来讲,当今的天下,可以说是transformer的天下,今天下三分,分别是 自编码(Autoencoder),自回归(Autoregressive),和怎么理解呢?encoder(左派)自编码代表:bertseq2seq代表:bart自回归代表:gpt上面那个图大家看了可能就会首先有个宏观的了解,接下来,会稍微细节简单说一下,之后相关的文章也会跟进。
2024-03-25 23:45:15
1323
1
原创 排序指标解读-GAUC
AUC和GAUC其实是同一类物种,只不过GAUC是个更细心,会考虑到每一个人的更细心的物种,而AUC是更有全局观,以整体为主的物种。
2023-03-21 00:54:36
599
原创 第一章、part03-动态内存分配
动态内存分配存在的意义就是更高效的利用内存空间,简单来说,用多少给多少,而不是提前开辟很大的内存空间,但不用那么多,类似数组。动态分配出一片大小为N * sizeof(T)字节的内存空间,并且将该内存空间的起始地址赋值给P,示例如下。动态分配出一片大小为sizeof(T)字节的内存空间,并且将该内存空间的起始地址赋值给P,如下。万物皆有轮回,有new来创建,对应的就有delete来释放。用new创建的内存空间,一定要用delete来释放掉!T 是任意的类型名, P 是T * 的指针。他们的返回值都是T*
2022-09-14 02:06:43
735
1
原创 第一章、part01-引用
类型名 & 引用名 = 变量名;上面这个写法就定义了一个变量名的引用。举个例子:int x = 0;此时 y 引用了x, y的类型是int &变量的引用就等价于这个变量,简单来说,y就是x的别名。举个代码例子,如下一目了然。
2022-09-11 21:00:41
833
1
原创 内容id生成器
1、背景首先个人理解,赋予一个背景,比如推荐系统中抖音里面,每天都有很多的作者去上传很多的视频,量级可能非常大,并且之前的视频也会累积,那么如何区分不同的视频内容呢,就是id了,类似于我们的身份证件,但是如何做到唯一标识呢?2、实现框架这个就会用到传说中的---雪花算法。雪花算法(Snowflake)是twitter公司内部分布式项目采用的ID生成算法,开源后广受国内大厂的好评,在该算法影响下各大公司相继开发出各具特色的分布式生成器。名字很高大上哈,其实很简单,看下面这张图片,就是雪
2022-03-26 17:18:39
1265
2
原创 第二十篇:Summarisation摘要
摘要• 从文本中提取最重要的信息以生成缩短或删节的版本• 例子 ‣ 文档大纲 ‣ 科学文章摘要 ‣ 新闻标题 ‣ 搜索结果片段
2021-06-20 19:31:14
208
4
原创 第十九篇:主题建模Topic Modelling
理解文本• 英文维基百科:600 万篇文章• Twitter:每天 5 亿条推文• 纽约时报:1500 万篇文章• arXiv:100 万篇文章• 如果我们想了解有关这些文档集的一些信息,我们可以做什么?
2021-06-20 17:54:31
3022
2
原创 第十五篇:依存语法Dependency Grammar
上下文无关语法(回顾)• CFG 假设有一个选区树来标识句子中的短语‣ 基于这些短语可以互换(例如,将一个 NP 换成另一个 NP)并保持语法性的想法
2021-06-19 17:42:34
3743
2
原创 第十四篇:有概率的上下文无关语法Probabilistic Context-Free Grammar
解析中的歧义• 上下文无关文法为语言分配层次结构 ‣ 公式化为生成语言中的所有字符串 ‣ 预测给定字符串的结构
2021-06-19 15:28:00
1006
原创 第十二篇:形式语言理论与有限状态自动机
我们到目前已经介绍了什么?• 处理单词序列的方法: ‣ N-gram 语言模型 ‣ 隐马尔可夫模型 ‣ 循环神经网络• 这些模型没有任何基本的语言学
2021-06-19 11:11:39
688
原创 第十一篇:Discourse 话语/论述
话语• 我们学到的大多数任务/模型都在单词或句子级别运行: ‣ 词性标注 ‣ 语言模型‣ 词法/分布语义• 但 NLP 经常处理文档• 话语:了解文档中句子之间的相互关系
2021-06-19 10:00:15
1270
原创 第十篇:上下文表示
词向量/嵌入• 每种词类型都有一种表示 ‣ Word2Vec• 无论单词的上下文如何,始终使用相同的表示• 无法捕捉词的多种含义• 上下文表示 = 基于上下文的单词表示• 预训练的上下文表示非常适合下游应用程序!...
2021-06-18 23:54:00
1084
1
原创 第八篇:CAP理论
CAP定理分布式数据库的局限性可以用所谓的 CAP 定理来描述一致性:每个节点在任何给定实例上总是看到相同的数据(即严格一致性)
2021-06-17 18:52:13
224
原创 第九篇:分布式语义
词法数据库(上一篇提到)- 问题• 手动构建 ‣ 昂贵的 ‣ 人工标注可能存在偏差和噪声• 语言是动态的 ‣ 生词:俚语、术语等。‣ 新感官• Internet 为我们提供了大量文本。 我们可以用它来获得词义吗?...
2021-06-15 23:43:47
2083
8
原创 第八篇:词汇语义
情感分析• 词袋,kNN 分类器。 训练数据: ‣ “This is a good movie.” → ☺ ‣ “This is a great movie.” → ☺‣ “This is a terrible film.” → ☹• “This is a wonderful film.” → ?• 两个问题:‣ 模型不知道“电影”和“电影”是同义词。 由于“film”仅出现在负面示例中,因此模型了解到它是一个负面词。‣ “精彩”不在词汇表中(OOV – 词汇外)。...
2021-06-15 17:11:52
909
3
原创 第七篇:循环神经网络
循环神经网络 (RNN)• RNN 允许表示任意大小的输入• 核心思想:通过应用递推公式一次处理一个输入序列• 使用状态向量来表示先前已处理过的上下文
2021-06-15 12:26:18
413
2
原创 第六篇:Feedforward Networks 前向网络
深度学习• 机器学习的一个分支• 重新命名神经网络• 神经网络:历史上受到大脑计算方式的启发 ‣ 由称为神经元的计算单元组成• 为什么深? 许多层在现代深度学习模型中链接在一起...
2021-06-14 21:48:42
2247
6
原创 第七篇:并发-恢复机制
复习ACID 属性❖ A tomicity:Xact 中的所有动作都发生,或者不发生。❖ 一致性:如果每个 Xact 是一致的,并且 DB 开始一致,则它最终一致。❖ 隔离:一个 Xact 的执行与其他 Xact 的执行隔离。❖ 持久性:如果 Xact 提交,其效果将持续存在。...
2021-06-14 16:52:06
1060
2
原创 第六篇:并发-粒度锁
并发事务 – 冲突和性能问题多个并发运行的事务可能会导致冲突- 我们仍然尽量允许并发运行以获得更好的性能,同时尽可能避免冲突
2021-06-14 09:38:28
361
原创 第三篇:事务
数据库事务事务 - 数据库中的工作单元- 交易中可以包含任意数量和类型的操作- 要么整体发生要么不发生- 事务最好有四个属性,通常称为 ACID 属性
2021-06-12 17:45:25
610
2
原创 第二篇:故障容忍
故障容忍使系统能够在其某些组件发生故障时继续正常运行的属性。从统计的角度出发P(A) = probability of an event A is happening in a certain period.
2021-06-12 11:13:44
565
2
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人