沧海之巅
这个作者很懒,什么都没留下…
展开
-
1401 位置编码公式详细理解补充
Self-Attention:对于每个词而言都是无位置关系,把每个词的顺序打乱,得到的注意力值依然不变。通过 t1 告诉你,x1 是在前面,x2 在 x1 的后面。原创 2023-10-26 06:51:04 · 239 阅读 · 0 评论 -
19 Transformer 解码器的两个为什么(为什么做掩码、为什么用编码器-解码器注意力)
测试阶段:解码器也会有输入,但是此时,测试的时候是不知道目标语句是什么的,这个时候,你每生成一个词,就会有多一个词放入目标语句中,每次生成的时候,都是已经生成的词(测试阶段只会把已经生成的词告诉解码器)为了匹配,为了解决这个 gap,masked Self-Attention 就登场了,我在训练阶段,我就做一个 masked,当你生成第一个词,我啥也不告诉你,当你生成第二个词,我告诉第一个词。Q 是源语句,K,V 是已经生成的词,源语句去已经生成的词里找重点 ,找信息,已经生成的词里面压根就没有下一个词。原创 2023-10-26 06:43:30 · 190 阅读 · 0 评论 -
18 Transformer 的动态流程
机器翻译:德语(中文)翻译成英文。原创 2023-10-26 06:42:57 · 340 阅读 · 0 评论 -
17 Transformer 的解码器(Decoders)——我要生成一个又一个单词
编码器在干吗:词向量、图片向量,总而言之,编码器就是让计算机能够更合理地(不确定性的)认识人类世界客观存在的一些东西。训练阶段:目标词“我是一个学生”是已知的,然后 Self-Attention 是对“我是一个学生” 做计算。假如目标词“我是一个学生”—》masked Self-Attention。如果做 masked,Self-Attention 第一次对“我”做计算。解码器会接收编码器生成的词向量,然后通过这个词向量去生成翻译的结果。如果不做 masked,每次训练阶段,都会获得全部的信息。原创 2023-10-22 09:09:53 · 190 阅读 · 0 评论 -
15 Transformer 框架概述
预训练–》NNLM–》word2Vec–》ELMo–》AttentionNLP 中预训练的目的,其实就是为了生成词向量顺水推舟,transformer 其实就是 attention 的一个堆叠从一个宏观的角度,去看 transformer 到底在干嘛,然后在细分,再作总结总分总seq2seq一句话,一个视频序列(编码器)到序列(解码器)分成两部分,编码器和解码器。原创 2023-10-22 09:09:15 · 133 阅读 · 0 评论 -
16 Transformer 的编码器(Encodes)——我在做更优秀的词向量
》Feed Forward,Relu(w2(w1x+b1)+b2),(前面每一步都在做线性变换,wx+b,线性变化的叠加永远都是线性变化(线性变化就是空间中平移和扩大缩小),通过 Feed Forward中的 Relu 做一次非线性变换,这样的空间变换可以无限拟合任何一种状态了),得到 r1(是 thinking 的新的表征)1,x 就没了,【w3(w2(w1x+b1)+b2)+b3+x】),归一化(LayerNorm),做标准化(避免梯度爆炸),得到了深粉色的 z1。seq(编码器)2seq(解码器)原创 2023-10-21 16:57:43 · 153 阅读 · 0 评论 -
15 Transformer 框架概述
预训练–》NNLM–》word2Vec–》ELMo–》AttentionNLP 中预训练的目的,其实就是为了生成词向量顺水推舟,transformer 其实就是 attention 的一个堆叠从一个宏观的角度,去看 transformer 到底在干嘛,然后在细分,再作总结总分总seq2seq一句话,一个视频序列(编码器)到序列(解码器)分成两部分,编码器和解码器。原创 2023-10-21 16:57:10 · 317 阅读 · 0 评论 -
14 Positional Encoding (为什么 Self-Attention 需要位置编码)
既然可以并行,也就是说,词与词之间不存在顺序关系(打乱一句话,这句话里的每个词的词向量依然不会变),即无位置关系(既然没有,我就加一个,通过位置编码的形式加)pos+K=5,我在计算第 5 个单词的位置编码的时候。原创 2023-10-21 16:56:09 · 125 阅读 · 0 评论 -
13 Multi-Head Self-Attention(从空间角度解释为什么做多头)
multi-head attention(1231,23,3),把 X 切分成 8 块(8 个子空间),这样一个原先在一个位置上的 X,去了空间上 8 个位置,通过对 8 个点进行寻找,找到更合适的位置。给定一个 X,通过自注意力模型,得到一个 Z,这个 Z 就是对 X 的新的表征(词向量),Z 这个词向量相比较 X 拥有了句法特征和语义特征。Z 相比较 X 有了提升,通过 Multi-Head Self-Attention,得到的。多头自注意力,问题来了,多头是什么,多头的个数用 h 表示,一般。原创 2023-10-21 16:55:32 · 100 阅读 · 0 评论 -
12 Masked Self-Attention(掩码自注意力机制)
当我们做生成任务的时候,我们也想对生成的这个单词做注意力计算,但是,生成的句子是一个一个单词生成的。自注意力机制明确的知道这句话有多少个单词,并且一次性给足,而掩码是分批次给,最后一次才给足。为什么要做这个改进:生成模型,生成单词,一个一个生成的。未来我们讲 Transformer 的时候会详细讲!I have 第二次,只有 I 和 have。I 第一次注意力计算,只有 I。掩码自注意力机制应运而生。原创 2023-10-21 16:54:56 · 337 阅读 · 0 评论 -
11 Self-Attention相比较 RNN和LSTM的优缺点
Self-Attention 得到的新的词向量具有句法特征和语义特征(词向量的表征更完善)LSTM 通过各种门,遗忘门,选择性的可以记忆之前的信息(200 词)无法做长序列,当一段话达到 50 个字,效果很差了。RNNs 长序列依赖问题,无法做并行。原创 2023-10-21 16:53:57 · 568 阅读 · 1 评论 -
Windows系统下环境安装
百度网盘链接:https://pan.baidu.com/s/1lbqhpIx-CAcBUfwSCjMNaA?参考文档:https://blog.csdn.net/jcfszxc/article/details/124004147。64位:http://www.winimage.com/zLibDll/zlib123dllx64.zip。32位:http://www.winimage.com/zLibDll/zlib123dll.zip。网络上有方法,是将cuDNN的文件存放CUDA的文件夹中,可供参考。原创 2023-09-26 22:38:36 · 148 阅读 · 0 评论 -
ChatGLM2_6b安装
在【api.py】、【web_demo.py】与【cli_demo.py】这3个文件中,指定模型文件的位置, AutoModel.from_pretrained(**量化后的模型:**如果你的内存不足,可以直接加载量化后的模型,即【chatglm2-6b-int4】文件夹内的模型。, trust_remote_code=True) 原文中模型路径的写法会实时去下载模型,建议修改成指向本地已经下载好的模型文件。【安装文件_备用】中可能用到的安装文件,如果没有安装的,可以安装一下。原创 2023-09-07 11:51:03 · 297 阅读 · 1 评论 -
ChatGPT的六大合规风险
否则,企业可能会面临法律、声誉和财务方面的严重后果。“ChatGPT没有提供其内容生成的具体原理和机制,”弗里德曼说:“法律和合规领导者应该密切关注适用于ChatGPT(以及其他生成式人工智能工具)输出内容相关版权法规的任何变化,并要求用户仔细审查他们生成的内容,以确保不侵犯版权或知识产权。“大语言模型不太可能完全消除偏见,因此法务和合规人员需要掌握管理人工智能偏见的法律,并确保合规性,”弗里德曼说:“这可能需要与专家合作,以确保人工智能生成可靠内容,并通过审计和技术功能进行数据质量控制。原创 2023-06-03 13:38:38 · 680 阅读 · 0 评论 -
数字孪生:数字世界与现实世界的交汇
有学者从落地应用的角度出发,研究提出一套数字孪生成熟度模型,将数字孪生成熟度划分为“以虚仿实(L0)、以虚映实(L1)、以虚控实(L2)、以虚预实(L3)、以虚优实 (L4)、虚实共生(L5)”六个等级。虚实共生,作为数字孪生的理想目标,指物理实体和数字孪生模型在长时间的同步运行过程中,甚至是在全生命周期中通过动态重构实现自主孪生,具有该能力的数字孪生处于其成熟度等级的第五等级(L5)。以虚控实,指利用数字孪生模型间接控制物理实体的运行过程,具有该能力的数字孪生处于其成熟度等级的第二等级(L2)。原创 2023-06-03 13:34:40 · 628 阅读 · 0 评论 -
私有部署类chatGPT大语言模型的几种方案
架构,具有 62 亿参数。经过约 1T 标识符的中英双语训练,辅以监督微调、反馈自助、人类反馈强化学习等技术的加持,62 亿参数的 ChatGLM-6B 已经能生成相当符合人类偏好的回答,更多信息请参考我们的。经过约 1T 标识符的中英双语训练,辅以监督微调、反馈自助、人类反馈强化学习等技术的加持,62 亿参数的 ChatGLM-6B 已经能生成相当符合人类偏好的回答。,如事实性/数学逻辑错误,可能生成有害/有偏见内容,较弱的上下文能力,自我认知混乱,以及对英文指示生成与中文指示完全矛盾的内容。原创 2023-04-14 20:18:56 · 4948 阅读 · 0 评论 -
清华大学开源的chatGLM-6B部署实战
wsl导入任意Linux发行版本 https://learn.microsoft.com/zh-cn/windows/wsl/use-custom-distro 可选。wsl开发环境配置 https://learn.microsoft.com/zh-cn/windows/wsl/setup/environment。显卡驱动自行更新 https://www.nvidia.cn/Download/index.aspx?需自行研究,失败因素过多无法列举,尤其是启用虚拟化失败导致无法正常启动wsl服务。原创 2023-04-08 22:02:01 · 1346 阅读 · 0 评论 -
阿里巴巴政委体系 & 华为数字化转型之道
阿里巴巴政委体系 & 华为数字化转型之道原创 2022-11-14 16:41:15 · 450 阅读 · 0 评论 -
华为数字化转型之道 实践篇 第七章 数字化作业:减少业务高能耗点
企业创造价值的效率及所产生的效益,很大程度上取决于各个职能部门的循环往复的日常作业是否高效。在数字时代,我们重新思考早已习以为常的作业模式,,。原创 2022-12-17 12:25:07 · 1085 阅读 · 0 评论 -
数字孪生-第二章、数字孪生技术
想要厘清数字孪生技术的内涵和体系架构,就需要数字如下10个部分的数字孪生的相关领域。计算机辅助设计(Computer Aided Design,CAD)模型是在CAD完工后形成的,是静态的。在绝大多数场合中,CAD模型就像象棋里面一个往前冲的小卒;数字孪生则不同,它与物理实体的产生是步步相连的,实体没有被制造出来时,也就没有相对应的数字孪生生成,就像一个放飞在天空中频频回头的风筝,两头抻着力。在过去,三维模型在行使作用之后就被工程技术人员放在计算机的文档里“沉睡”。而数字孪生确是神通广大、不可小觑。它是基于原创 2022-07-11 16:35:41 · 659 阅读 · 0 评论 -
数字孪生-第一章、数字孪生
目前,互联网、大数据、人工智能等新技术越来越深入人们的日常生活。人们投入到社交网络、网络游戏、电子商务、数字办公中的时间不断增多,个人也越来越多地以数字身份出现在社会生活中。可以想象,出去睡眠等占用额无效时间,如果人类每天在数字世界活动的时间超过有效时间的50%,那么人类的数字化身份会比物理世界的身份更真实有效。在过去的几年里,物联网领域一直流行着一个新的术语:数字孪生(Digital Twin)。这一术语已被美国知名咨询及分析机构Gartner添加到2019年十大战略性技术趋势中。 2019年2月,原创 2022-07-09 21:46:27 · 543 阅读 · 0 评论