沧海之巅
这个作者很懒,什么都没留下…
展开
-
储能技术:未来能源系统的关键
储能技术是实现可持续能源系统的重要组成部分。随着可再生能源的快速发展,如太阳能和风能,储能技术的需求也在不断增加。储能技术可以帮助平衡供需,提高电网的稳定性和可靠性,降低电力成本,减少对化石燃料的依赖,从而推动能源转型。原创 2024-01-19 14:48:13 · 98 阅读 · 0 评论 -
1401 位置编码公式详细理解补充
Self-Attention:对于每个词而言都是无位置关系,把每个词的顺序打乱,得到的注意力值依然不变。通过 t1 告诉你,x1 是在前面,x2 在 x1 的后面。原创 2023-10-26 06:51:04 · 244 阅读 · 0 评论 -
19 Transformer 解码器的两个为什么(为什么做掩码、为什么用编码器-解码器注意力)
测试阶段:解码器也会有输入,但是此时,测试的时候是不知道目标语句是什么的,这个时候,你每生成一个词,就会有多一个词放入目标语句中,每次生成的时候,都是已经生成的词(测试阶段只会把已经生成的词告诉解码器)为了匹配,为了解决这个 gap,masked Self-Attention 就登场了,我在训练阶段,我就做一个 masked,当你生成第一个词,我啥也不告诉你,当你生成第二个词,我告诉第一个词。Q 是源语句,K,V 是已经生成的词,源语句去已经生成的词里找重点 ,找信息,已经生成的词里面压根就没有下一个词。原创 2023-10-26 06:43:30 · 198 阅读 · 0 评论 -
18 Transformer 的动态流程
机器翻译:德语(中文)翻译成英文。原创 2023-10-26 06:42:57 · 344 阅读 · 0 评论 -
17 Transformer 的解码器(Decoders)——我要生成一个又一个单词
编码器在干吗:词向量、图片向量,总而言之,编码器就是让计算机能够更合理地(不确定性的)认识人类世界客观存在的一些东西。训练阶段:目标词“我是一个学生”是已知的,然后 Self-Attention 是对“我是一个学生” 做计算。假如目标词“我是一个学生”—》masked Self-Attention。如果做 masked,Self-Attention 第一次对“我”做计算。解码器会接收编码器生成的词向量,然后通过这个词向量去生成翻译的结果。如果不做 masked,每次训练阶段,都会获得全部的信息。原创 2023-10-22 09:09:53 · 197 阅读 · 0 评论 -
15 Transformer 框架概述
预训练–》NNLM–》word2Vec–》ELMo–》AttentionNLP 中预训练的目的,其实就是为了生成词向量顺水推舟,transformer 其实就是 attention 的一个堆叠从一个宏观的角度,去看 transformer 到底在干嘛,然后在细分,再作总结总分总seq2seq一句话,一个视频序列(编码器)到序列(解码器)分成两部分,编码器和解码器。原创 2023-10-22 09:09:15 · 137 阅读 · 0 评论 -
16 Transformer 的编码器(Encodes)——我在做更优秀的词向量
》Feed Forward,Relu(w2(w1x+b1)+b2),(前面每一步都在做线性变换,wx+b,线性变化的叠加永远都是线性变化(线性变化就是空间中平移和扩大缩小),通过 Feed Forward中的 Relu 做一次非线性变换,这样的空间变换可以无限拟合任何一种状态了),得到 r1(是 thinking 的新的表征)1,x 就没了,【w3(w2(w1x+b1)+b2)+b3+x】),归一化(LayerNorm),做标准化(避免梯度爆炸),得到了深粉色的 z1。seq(编码器)2seq(解码器)原创 2023-10-21 16:57:43 · 161 阅读 · 0 评论 -
15 Transformer 框架概述
预训练–》NNLM–》word2Vec–》ELMo–》AttentionNLP 中预训练的目的,其实就是为了生成词向量顺水推舟,transformer 其实就是 attention 的一个堆叠从一个宏观的角度,去看 transformer 到底在干嘛,然后在细分,再作总结总分总seq2seq一句话,一个视频序列(编码器)到序列(解码器)分成两部分,编码器和解码器。原创 2023-10-21 16:57:10 · 320 阅读 · 0 评论 -
14 Positional Encoding (为什么 Self-Attention 需要位置编码)
既然可以并行,也就是说,词与词之间不存在顺序关系(打乱一句话,这句话里的每个词的词向量依然不会变),即无位置关系(既然没有,我就加一个,通过位置编码的形式加)pos+K=5,我在计算第 5 个单词的位置编码的时候。原创 2023-10-21 16:56:09 · 136 阅读 · 0 评论 -
13 Multi-Head Self-Attention(从空间角度解释为什么做多头)
multi-head attention(1231,23,3),把 X 切分成 8 块(8 个子空间),这样一个原先在一个位置上的 X,去了空间上 8 个位置,通过对 8 个点进行寻找,找到更合适的位置。给定一个 X,通过自注意力模型,得到一个 Z,这个 Z 就是对 X 的新的表征(词向量),Z 这个词向量相比较 X 拥有了句法特征和语义特征。Z 相比较 X 有了提升,通过 Multi-Head Self-Attention,得到的。多头自注意力,问题来了,多头是什么,多头的个数用 h 表示,一般。原创 2023-10-21 16:55:32 · 103 阅读 · 0 评论 -
12 Masked Self-Attention(掩码自注意力机制)
当我们做生成任务的时候,我们也想对生成的这个单词做注意力计算,但是,生成的句子是一个一个单词生成的。自注意力机制明确的知道这句话有多少个单词,并且一次性给足,而掩码是分批次给,最后一次才给足。为什么要做这个改进:生成模型,生成单词,一个一个生成的。未来我们讲 Transformer 的时候会详细讲!I have 第二次,只有 I 和 have。I 第一次注意力计算,只有 I。掩码自注意力机制应运而生。原创 2023-10-21 16:54:56 · 402 阅读 · 0 评论 -
11 Self-Attention相比较 RNN和LSTM的优缺点
Self-Attention 得到的新的词向量具有句法特征和语义特征(词向量的表征更完善)LSTM 通过各种门,遗忘门,选择性的可以记忆之前的信息(200 词)无法做长序列,当一段话达到 50 个字,效果很差了。RNNs 长序列依赖问题,无法做并行。原创 2023-10-21 16:53:57 · 605 阅读 · 1 评论 -
LLAMA2(Meta大语言模型)可运行整合包的下载与安装
百度网盘链接:https://pan.baidu.com/s/1g1xknRdeHWPsAeZl9urXxg?百度网盘链接:https://pan.baidu.com/s/19gPNTTPc6cAdM2DLfmaE0w?根据你的系统,把generation_linux.py或者generation_win.py修改为generation.py。夸克网盘链接:https://pan.quark.cn/s/b6ceb2c6211b。1)进入工程目录运行download.sh。2)填入收到的邮件中的链接。原创 2023-09-26 22:39:08 · 5113 阅读 · 0 评论 -
Windows系统下环境安装
百度网盘链接:https://pan.baidu.com/s/1lbqhpIx-CAcBUfwSCjMNaA?参考文档:https://blog.csdn.net/jcfszxc/article/details/124004147。64位:http://www.winimage.com/zLibDll/zlib123dllx64.zip。32位:http://www.winimage.com/zLibDll/zlib123dll.zip。网络上有方法,是将cuDNN的文件存放CUDA的文件夹中,可供参考。原创 2023-09-26 22:38:36 · 149 阅读 · 0 评论 -
chatGLM-Windows环境安装
百度网盘链接:https://pan.baidu.com/s/1lbqhpIx-CAcBUfwSCjMNaA?参考文档:https://blog.csdn.net/jcfszxc/article/details/124004147。64位:http://www.winimage.com/zLibDll/zlib123dllx64.zip。32位:http://www.winimage.com/zLibDll/zlib123dll.zip。网络上有方法,是将cuDNN的文件存放CUDA的文件夹中,可供参考。原创 2023-09-07 11:50:09 · 380 阅读 · 0 评论 -
chatGLM介绍
ChatGLM2-6B 使用了 GLM 的混合目标函数,经过了 1.4T 中英标识符的预训练与人类偏好对齐训练,评测结果显示,相比于初代模型,ChatGLM2-6B 在 MMLU(+23%)、CEval(+33%)、GSM8K(+571%) 、BBH(+60%)等数据集上的性能取得了大幅度的提升,在同尺寸开源模型中具有较强的竞争力。基于 Multi-Query Attention 技术,ChatGLM2-6B 有更高效的推理速度和更低的显存占用:在官方的模型实现下,可以在消费级的显卡上运行。原创 2023-09-07 11:49:11 · 610 阅读 · 0 评论 -
稚晖君人形机器人问世:大模型加持,会自己换胳膊,要上生产线造车
在框架中,机器人系统被分为不同层级,包括部署在云端的超脑,部署在端侧的大脑、小脑以及脑干,分别对应机器人任务不同级别的技能,包括技能级、指令级、伺服级等。在当前的具身智能领域,很多研究都在尝试将大模型作为机器人的大脑,稚晖君也不例外,他也想用多模态大模型的能力赋能智元机器人的行为动作编排。稚晖君表示:「远征 A1 是我们的第一台通用型智具身智能机器人,它融合了各种先进的本体控制、感知、认知和决策的智能技术,基于当前 AI 领域前沿的大语言模型,以及我们自研的视觉控制模型,完成了一系列创新。原创 2023-08-19 08:49:39 · 172 阅读 · 0 评论 -
06 Word2Vec模型(第一个专门做词向量的模型,CBOW和Skip-gram)
外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-pJRvexww-1691494480791)(https://imgmd.oss-cn-shanghai.aliyuncs.com/BERT_IMG/%E7%A5%9E%E7%BB%8F%E7%BD%91%E7%BB%9C%E8%AF%AD%E8%A8%80%E6%A8%A1%E5%9E%8B.jpg)]NNNL --》 重点是预测下一词,双层感知机softmax(w2(tanh((w1(xQ)+b1)))+b2)原创 2023-08-08 19:35:07 · 1314 阅读 · 0 评论 -
05 神经网络语言模型(独热编码+词向量的起源)
神经网络语言模型:通过神经网络解决两个人说的话的问题有一个副产品:Q 矩阵–》新的词向量(词向量可以选择词向量的维度,可以求两个词之间的相似程度)下游任务。原创 2023-08-08 19:34:32 · 369 阅读 · 0 评论 -
04 统计语言模型(n元语言模型)
Library/Application Support/typora-user-images/image-20220611203051818.png)]“判断这个词的词性” = “判断”,“这个”,“词”,“的”,“词性”P(w_next | “判断”,“这个”,“词”,“的”) (1)P(词性| “判断”,“这个”,“词”,“的”,……把 n 个词,取 2 个词(2 元),取 3 个词(3 元)P(词性| “判断”,“这个”,“词”,“的”)P(火星| “判断”,“这个”,“词”,“的”)原创 2023-08-08 19:34:00 · 753 阅读 · 0 评论 -
03 什么是预训练(Transformer 前奏)
一个任务 A,一个任务 B,两者极其相似,任务 A 已经训练处一个模型 A,使用模型 A 的浅层参数去训练任务 B,得到模型 B,1.原创 2023-08-08 19:33:30 · 721 阅读 · 0 评论 -
05 神经网络语言模型(独热编码+词向量的起源)
神经网络语言模型:通过神经网络解决两个人说的话的问题有一个副产品:Q 矩阵–》新的词向量(词向量可以选择词向量的维度,可以求两个词之间的相似程度)下游任务。转载 2023-07-08 17:46:15 · 85 阅读 · 1 评论 -
04 统计语言模型(n元语言模型)
Library/Application Support/typora-user-images/image-20220611203051818.png)]“判断这个词的词性” = “判断”,“这个”,“词”,“的”,“词性”P(w_next | “判断”,“这个”,“词”,“的”) (1)P(词性| “判断”,“这个”,“词”,“的”,……把 n 个词,取 2 个词(2 元),取 3 个词(3 元)P(词性| “判断”,“这个”,“词”,“的”)P(火星| “判断”,“这个”,“词”,“的”)原创 2023-07-08 17:45:40 · 604 阅读 · 0 评论 -
03 什么是预训练(Transformer 前奏)
一个任务 A,一个任务 B,两者极其相似,任务 A 已经训练处一个模型 A,使用模型 A 的浅层参数去训练任务 B,得到模型 B,1.转载 2023-07-08 17:44:50 · 80 阅读 · 0 评论 -
BERT模型蒸馏完全指南(原理&技巧&代码)
小朋友,关于模型蒸馏,你是否有很多问号:今天rumor就结合Distilled BiLSTM/BERT-PKD/DistillBERT/TinyBERT/MobileBERT/MiniLM六大经典模型,带大家把BERT蒸馏整到明明白白!注:文末附BERT面试点&相关模型汇总,还有NLP组队学习群的加群方式~Hinton在NIPS2014**[1]**提出了知识蒸馏(Knowledge Distillation)的概念,旨在把一个大模型或者多个模型ensemble学到的知识迁移到另一个轻量级单模型上,方便部署原创 2023-07-04 21:44:58 · 343 阅读 · 0 评论 -
大语言模型的进化树,这是一份超详细ChatGPT「食用」指南
在最后也是最重要的部分,本文会深入各种具体的 NLP 任务,介绍 LLM 是否适用于知识密集型任务、传统 NLU 任务和生成任务,此外还会描述这些模型不断获得的新能力以及具有挑战性的现实世界应用场景。不适用 LLM:对于大多数自然语言理解任务,比如 GLUE 和 SuperGLUE 中的任务,如果该任务已有丰富的标注良好的数据并且测试集中仅有非常少的数据在分布之外,那么微调模型的表现依然更好。(3)模型的能力并不总是会随规模提升,而且我们对大型语言模型的能力与规模的关系的理解还很有限。原创 2023-07-04 21:44:28 · 145 阅读 · 0 评论 -
从Word Embedding到Bert模型—自然语言处理中的预训练技术发展史
Bert最近很火,应该是最近最火爆的AI进展,网上的评价很高,那么Bert值得这么高的评价吗?我个人判断是值得。那为什么会有这么高的评价呢?是因为它有重大的理论或者模型创新吗?其实并没有,从模型创新角度看一般,创新不算大。但是架不住效果太好了,基本刷新了很多NLP的任务的最好性能,有些任务还被刷爆了,这个才是关键。另外一点是Bert具备广泛的通用性,就是说绝大部分NLP任务都可以采用类似的两阶段模式直接去提升效果,这个第二关键。客观的说,把Bert当做最近两年NLP重大进展的集大成者更符合事实。原创 2023-07-04 21:43:56 · 1405 阅读 · 0 评论 -
Transfomer编码器中自注意力机制、前馈网络层、叠加和归一组件等讲解(图文解释)
Transformer中的编码器不止一个,而是由一组N个编码器串联而成,一个编码的输出作为下一个编码器的输入,如下图所示,每一个编码器都从下方接收数据,再输出给上方,以此类推,原句中的特征会由最后一个编码器输出,编码器模块的主要功能就是提取原句中的特征。以上句为例,我们的模型首先需要计算出单词A的特征值,其次计算dog的特征值,以此类推,当计算每个词的特征值时,模型都需要遍历每个词与句子中其他词的关系,模型可以通过词与词之间的关系来更好的理解当前词的意思。自注意力机制有助于解决这个问题。原创 2023-07-04 21:41:03 · 293 阅读 · 0 评论 -
国产开源中文大语言模型再添重磅玩家:清华大学NLP实验室发布100亿参数规模的开源可商用大语言模型CPM-Bee
CPM全称Chinese Pretrained Model,Bee是该系列模型的第二个里程碑版本。CPM-Bee模型是基于CPM-Ant模型继续训练得到。后者是2022年5月到9月训练的大语言模型。而CPM-Bee则是从2022年10月13日开启训练,相比之前,模型在很多任务上做了优化,包括文字填空、文本生成、问答等。这是一个基于transformer架构的自回归模型,在高质量的中英文数据集上训练了半年左右的时间。包含4个系列的预训练结果,参数分别是10亿、20亿、50亿和100亿。原创 2023-07-04 21:42:41 · 224 阅读 · 0 评论 -
国产开源中文大语言模型再添重磅玩家:清华大学NLP实验室发布100亿参数规模的开源可商用大语言模型CPM-Bee
CPM全称Chinese Pretrained Model,Bee是该系列模型的第二个里程碑版本。CPM-Bee模型是基于CPM-Ant模型继续训练得到。后者是2022年5月到9月训练的大语言模型。而CPM-Bee则是从2022年10月13日开启训练,相比之前,模型在很多任务上做了优化,包括文字填空、文本生成、问答等。这是一个基于transformer架构的自回归模型,在高质量的中英文数据集上训练了半年左右的时间。包含4个系列的预训练结果,参数分别是10亿、20亿、50亿和100亿。原创 2023-07-04 21:39:41 · 193 阅读 · 0 评论 -
使用FFmpeg结合srs4将rtsp流转换为FLV&HLS
伊拉克 Al Sharqiya 电视台:rtmp://ns8.indexforce.com/home/mystream]视频播放地址:http://192.168.32.245:18080:players/srs_player.html。由于使用了 entrypoint bash , 所以此时应该已经进入了 ffmpeg的 Container里。就能看到你的转码视频流,点击前面的 蓝色ID,就能在线播放,同时你也能看到它给你的播放地址。登录 http://192.168.32.245:18080/原创 2023-06-22 08:16:10 · 2898 阅读 · 0 评论 -
00 预训练语言模型的前世今生(全文 24854 个词)
本篇文章共 25027 个词,一个字一个字手码的不容易,转载请标明出处:预训练语言模型的前世今生 - 从Word Embedding到BERT - 二十三岁的有德本文的主题是预训练语言模型的前世今生,会大致说下 NLP 中的预训练技术是一步一步如何发展到 Bert 模型的,从中可以很自然地看到 Bert 的思路是如何逐渐形成的,Bert 的历史沿革是什么,继承了什么,创新了什么,为什么效果那么好,主要原因是什么,以及为何说模型创新不算太大,为何说 Bert 是近年来 NLP 重大进展的集大成者。预训练语言转载 2023-06-15 21:38:03 · 228 阅读 · 0 评论 -
Transfomer编码器中自注意力机制、前馈网络层、叠加和归一组件等讲解(图文解释)
Transformer中的编码器不止一个,而是由一组N个编码器串联而成,一个编码的输出作为下一个编码器的输入,如下图所示,每一个编码器都从下方接收数据,再输出给上方,以此类推,原句中的特征会由最后一个编码器输出,编码器模块的主要功能就是提取原句中的特征。以上句为例,我们的模型首先需要计算出单词A的特征值,其次计算dog的特征值,以此类推,当计算每个词的特征值时,模型都需要遍历每个词与句子中其他词的关系,模型可以通过词与词之间的关系来更好的理解当前词的意思。自注意力机制有助于解决这个问题。原创 2023-06-15 21:32:25 · 524 阅读 · 0 评论 -
ChatGPT的六大合规风险
否则,企业可能会面临法律、声誉和财务方面的严重后果。“ChatGPT没有提供其内容生成的具体原理和机制,”弗里德曼说:“法律和合规领导者应该密切关注适用于ChatGPT(以及其他生成式人工智能工具)输出内容相关版权法规的任何变化,并要求用户仔细审查他们生成的内容,以确保不侵犯版权或知识产权。“大语言模型不太可能完全消除偏见,因此法务和合规人员需要掌握管理人工智能偏见的法律,并确保合规性,”弗里德曼说:“这可能需要与专家合作,以确保人工智能生成可靠内容,并通过审计和技术功能进行数据质量控制。原创 2023-06-03 13:38:38 · 685 阅读 · 0 评论 -
数字孪生:数字世界与现实世界的交汇
有学者从落地应用的角度出发,研究提出一套数字孪生成熟度模型,将数字孪生成熟度划分为“以虚仿实(L0)、以虚映实(L1)、以虚控实(L2)、以虚预实(L3)、以虚优实 (L4)、虚实共生(L5)”六个等级。虚实共生,作为数字孪生的理想目标,指物理实体和数字孪生模型在长时间的同步运行过程中,甚至是在全生命周期中通过动态重构实现自主孪生,具有该能力的数字孪生处于其成熟度等级的第五等级(L5)。以虚控实,指利用数字孪生模型间接控制物理实体的运行过程,具有该能力的数字孪生处于其成熟度等级的第二等级(L2)。原创 2023-06-03 13:34:40 · 633 阅读 · 0 评论 -
国产版ChatGPT大盘点
②在算力方面,针对教育垂类,成本将有所下降。此外,在自然语言理解方面,中文的多义性有天然的高门槛,而像ChatGPT这类产品背后是整个互联网庞大的语料库,对于国内平台来说自然无法避免合规性的问题,因此除了自然的理解与回到用户的各种刁钻问题,中国版ChatGPT也需要比国外同类产品更严格的审核机制,甚至在早期可能还需要人工审核的存在。不久前腾讯发布财报后,腾讯总裁刘炽平也透露了腾讯聊天机器人的计划,“不急于求成,先打好基础,再追求新进展,我们的第一款产品将会是多次迭代之后的产品,整个过程将是长期的”。原创 2023-05-05 21:48:14 · 5193 阅读 · 0 评论 -
私有部署类chatGPT大语言模型的几种方案
架构,具有 62 亿参数。经过约 1T 标识符的中英双语训练,辅以监督微调、反馈自助、人类反馈强化学习等技术的加持,62 亿参数的 ChatGLM-6B 已经能生成相当符合人类偏好的回答,更多信息请参考我们的。经过约 1T 标识符的中英双语训练,辅以监督微调、反馈自助、人类反馈强化学习等技术的加持,62 亿参数的 ChatGLM-6B 已经能生成相当符合人类偏好的回答。,如事实性/数学逻辑错误,可能生成有害/有偏见内容,较弱的上下文能力,自我认知混乱,以及对英文指示生成与中文指示完全矛盾的内容。原创 2023-04-14 20:18:56 · 4964 阅读 · 0 评论 -
轻松拿结果-第三部分 同欲 -第六章 有凝聚力才有战斗力
上下同欲者胜”,同结果、共承担,不仅是打造销售铁军军魂的必要条件,也能让成员们对每个结果负责,更好更快实现目标。原创 2023-04-02 09:18:39 · 1084 阅读 · 0 评论 -
轻松拿结果-第二部分 同力 -第五章 用制度保障业绩
这是二象性的第二个提现:既执行具体分析工作,又把分析出的数据结果分享出来,让整个团队的销售工作具有借鉴意义的同时,还能够对此时、此客户的分析结果以及下一步动作进行集中讨论,从而得出最优解。这是二象性的第三个体现,既让信息对等,提高销售员的工作效率又通过展现方法,把每个销售员具体的工作方法在团队面前“亮”出来,形成可复制的有效经验。有一个销售员踢球时伤到了腿,在他休息的两个月里,业绩却没有落下一点,都是整个团队的人在帮他完成,为的就是不影响他的年度考核。用技巧得到的客户,要用心维护。原创 2023-04-01 23:34:47 · 616 阅读 · 0 评论 -
轻松拿结果-第二部分 同力 -第四章 用战术拿下业绩
其次,放平心态,积极配合他的反驳,让他感觉自己的反驳对你是有效的,此时他的内心会有成就感;还有一种可能就是,目前的产品勉强能用,他不愿意再去花时间和精力去了解和试用一个新的产品,万一效果不好,他会因此担责。二是晚上8点到9点。销售员强调的是请教、学习、探讨和分享,说明你在此前和客户的沟通之后,还感觉意犹未尽,想就这个话题继续探讨。原因是他的级别比较低,没权利拍板,或者正在用的产品是他的商机确定的,他担心擅自更换无法交代。预约客户拜访的目的,是引起客户和你面谈的兴趣,绝不是套套不绝地介绍自己公司的产品。原创 2023-04-01 22:23:58 · 343 阅读 · 0 评论