GPT
文章平均质量分 87
沧海之巅
这个作者很懒,什么都没留下…
展开
-
LLAMA2(Meta大语言模型)可运行整合包的下载与安装
百度网盘链接:https://pan.baidu.com/s/1g1xknRdeHWPsAeZl9urXxg?百度网盘链接:https://pan.baidu.com/s/19gPNTTPc6cAdM2DLfmaE0w?根据你的系统,把generation_linux.py或者generation_win.py修改为generation.py。夸克网盘链接:https://pan.quark.cn/s/b6ceb2c6211b。1)进入工程目录运行download.sh。2)填入收到的邮件中的链接。原创 2023-09-26 22:39:08 · 5569 阅读 · 0 评论 -
ChatGLM2_6b安装
在【api.py】、【web_demo.py】与【cli_demo.py】这3个文件中,指定模型文件的位置, AutoModel.from_pretrained(**量化后的模型:**如果你的内存不足,可以直接加载量化后的模型,即【chatglm2-6b-int4】文件夹内的模型。, trust_remote_code=True) 原文中模型路径的写法会实时去下载模型,建议修改成指向本地已经下载好的模型文件。【安装文件_备用】中可能用到的安装文件,如果没有安装的,可以安装一下。原创 2023-09-07 11:51:03 · 385 阅读 · 1 评论 -
chatGLM-Windows环境安装
百度网盘链接:https://pan.baidu.com/s/1lbqhpIx-CAcBUfwSCjMNaA?参考文档:https://blog.csdn.net/jcfszxc/article/details/124004147。64位:http://www.winimage.com/zLibDll/zlib123dllx64.zip。32位:http://www.winimage.com/zLibDll/zlib123dll.zip。网络上有方法,是将cuDNN的文件存放CUDA的文件夹中,可供参考。原创 2023-09-07 11:50:09 · 423 阅读 · 0 评论 -
chatGLM介绍
ChatGLM2-6B 使用了 GLM 的混合目标函数,经过了 1.4T 中英标识符的预训练与人类偏好对齐训练,评测结果显示,相比于初代模型,ChatGLM2-6B 在 MMLU(+23%)、CEval(+33%)、GSM8K(+571%) 、BBH(+60%)等数据集上的性能取得了大幅度的提升,在同尺寸开源模型中具有较强的竞争力。基于 Multi-Query Attention 技术,ChatGLM2-6B 有更高效的推理速度和更低的显存占用:在官方的模型实现下,可以在消费级的显卡上运行。原创 2023-09-07 11:49:11 · 709 阅读 · 0 评论 -
稚晖君人形机器人问世:大模型加持,会自己换胳膊,要上生产线造车
在框架中,机器人系统被分为不同层级,包括部署在云端的超脑,部署在端侧的大脑、小脑以及脑干,分别对应机器人任务不同级别的技能,包括技能级、指令级、伺服级等。在当前的具身智能领域,很多研究都在尝试将大模型作为机器人的大脑,稚晖君也不例外,他也想用多模态大模型的能力赋能智元机器人的行为动作编排。稚晖君表示:「远征 A1 是我们的第一台通用型智具身智能机器人,它融合了各种先进的本体控制、感知、认知和决策的智能技术,基于当前 AI 领域前沿的大语言模型,以及我们自研的视觉控制模型,完成了一系列创新。原创 2023-08-19 08:49:39 · 247 阅读 · 0 评论 -
04 统计语言模型(n元语言模型)
Library/Application Support/typora-user-images/image-20220611203051818.png)]“判断这个词的词性” = “判断”,“这个”,“词”,“的”,“词性”P(w_next | “判断”,“这个”,“词”,“的”) (1)P(词性| “判断”,“这个”,“词”,“的”,……把 n 个词,取 2 个词(2 元),取 3 个词(3 元)P(词性| “判断”,“这个”,“词”,“的”)P(火星| “判断”,“这个”,“词”,“的”)原创 2023-08-08 19:34:00 · 787 阅读 · 0 评论 -
03 什么是预训练(Transformer 前奏)
一个任务 A,一个任务 B,两者极其相似,任务 A 已经训练处一个模型 A,使用模型 A 的浅层参数去训练任务 B,得到模型 B,1.原创 2023-08-08 19:33:30 · 768 阅读 · 0 评论 -
04 统计语言模型(n元语言模型)
Library/Application Support/typora-user-images/image-20220611203051818.png)]“判断这个词的词性” = “判断”,“这个”,“词”,“的”,“词性”P(w_next | “判断”,“这个”,“词”,“的”) (1)P(词性| “判断”,“这个”,“词”,“的”,……把 n 个词,取 2 个词(2 元),取 3 个词(3 元)P(词性| “判断”,“这个”,“词”,“的”)P(火星| “判断”,“这个”,“词”,“的”)原创 2023-07-08 17:45:40 · 630 阅读 · 0 评论 -
BERT模型蒸馏完全指南(原理&技巧&代码)
小朋友,关于模型蒸馏,你是否有很多问号:今天rumor就结合Distilled BiLSTM/BERT-PKD/DistillBERT/TinyBERT/MobileBERT/MiniLM六大经典模型,带大家把BERT蒸馏整到明明白白!注:文末附BERT面试点&相关模型汇总,还有NLP组队学习群的加群方式~Hinton在NIPS2014**[1]**提出了知识蒸馏(Knowledge Distillation)的概念,旨在把一个大模型或者多个模型ensemble学到的知识迁移到另一个轻量级单模型上,方便部署原创 2023-07-04 21:44:58 · 435 阅读 · 0 评论 -
Transfomer编码器中自注意力机制、前馈网络层、叠加和归一组件等讲解(图文解释)
Transformer中的编码器不止一个,而是由一组N个编码器串联而成,一个编码的输出作为下一个编码器的输入,如下图所示,每一个编码器都从下方接收数据,再输出给上方,以此类推,原句中的特征会由最后一个编码器输出,编码器模块的主要功能就是提取原句中的特征。以上句为例,我们的模型首先需要计算出单词A的特征值,其次计算dog的特征值,以此类推,当计算每个词的特征值时,模型都需要遍历每个词与句子中其他词的关系,模型可以通过词与词之间的关系来更好的理解当前词的意思。自注意力机制有助于解决这个问题。原创 2023-07-04 21:41:03 · 351 阅读 · 0 评论 -
国产开源中文大语言模型再添重磅玩家:清华大学NLP实验室发布100亿参数规模的开源可商用大语言模型CPM-Bee
CPM全称Chinese Pretrained Model,Bee是该系列模型的第二个里程碑版本。CPM-Bee模型是基于CPM-Ant模型继续训练得到。后者是2022年5月到9月训练的大语言模型。而CPM-Bee则是从2022年10月13日开启训练,相比之前,模型在很多任务上做了优化,包括文字填空、文本生成、问答等。这是一个基于transformer架构的自回归模型,在高质量的中英文数据集上训练了半年左右的时间。包含4个系列的预训练结果,参数分别是10亿、20亿、50亿和100亿。原创 2023-07-04 21:42:41 · 279 阅读 · 0 评论 -
国产开源中文大语言模型再添重磅玩家:清华大学NLP实验室发布100亿参数规模的开源可商用大语言模型CPM-Bee
CPM全称Chinese Pretrained Model,Bee是该系列模型的第二个里程碑版本。CPM-Bee模型是基于CPM-Ant模型继续训练得到。后者是2022年5月到9月训练的大语言模型。而CPM-Bee则是从2022年10月13日开启训练,相比之前,模型在很多任务上做了优化,包括文字填空、文本生成、问答等。这是一个基于transformer架构的自回归模型,在高质量的中英文数据集上训练了半年左右的时间。包含4个系列的预训练结果,参数分别是10亿、20亿、50亿和100亿。原创 2023-07-04 21:39:41 · 239 阅读 · 0 评论 -
今日大模型日报
Github地址:https://github.com/VinAIResearch/XPhoneBERT论文地址:https://arxiv.org/abs/2305.19709XPhoneBERT是第一个预先训练用于学习下游文本到语音(TTS)任务的音素表示的多语言模型。我们的XPhoneBERT具有与BERT基础相同的模型架构,使用RoBERTa预训练方法对近100种语言和地区的3.3亿音素级句子进行训练。原创 2023-07-04 21:41:20 · 438 阅读 · 0 评论 -
Lion闭源大语言模型的对抗蒸馏框架实践
对抗蒸馏框架概述:我们基于高级闭源LLM的基础上提炼一个学生LLM,该LLM具有三个角色:教师、裁判和生成器。有三个迭代阶段:模仿阶段,对于一组指令,将学生的响应与老师的响应对齐;区分阶段,识别出难指令;生成阶段,根据识别出的难指令,产生新的难指令以增加对学生模型的挑战。原创 2023-07-04 21:40:31 · 1059 阅读 · 0 评论 -
Lion:闭源大语言模型的对抗蒸馏
最终训练好的模型被命名为。作者利用 LLM 的多功能角色适应性,使用不同的 prompt 让闭源模型识别“难”的指令,并为学生模型生成新的“难”指令,从而创建了一个包含模仿、辨别和生成的三阶段对抗循环。,由香港科技大学提出的针对闭源大语言模型的对抗蒸馏框架,成功将 ChatGPT 的知识转移到了参数量 7B的 LLaMA 模型(命名为 Lion),在只有 70k训练数据的情况下,实现了近 95%的 ChatGPT 能力近似。作者也指出,对于如何衡量大模型的能力,一个统一的、全面的评价指标是必要的。原创 2023-07-04 21:39:37 · 1389 阅读 · 0 评论 -
Lion:闭源大语言模型的对抗性蒸馏
我们的对抗性蒸馏框架的高级概述,其中我们基于高级闭源 LLM 制作了一个紧凑的学生 LLM,该 LLM 服务于三个角色:教师**、裁判员和生成器**。模仿阶段*,*使学生的反应与教师的反应保持一致;识别硬样本的辨别阶段;生成阶段,用于生成新的硬样本*,*以升级向学生模型提出的挑战。原创 2023-07-04 21:38:40 · 1518 阅读 · 0 评论 -
00 预训练语言模型的前世今生(全文 24854 个词)
本篇文章共 25027 个词,一个字一个字手码的不容易,转载请标明出处:预训练语言模型的前世今生 - 从Word Embedding到BERT - 二十三岁的有德本文的主题是预训练语言模型的前世今生,会大致说下 NLP 中的预训练技术是一步一步如何发展到 Bert 模型的,从中可以很自然地看到 Bert 的思路是如何逐渐形成的,Bert 的历史沿革是什么,继承了什么,创新了什么,为什么效果那么好,主要原因是什么,以及为何说模型创新不算太大,为何说 Bert 是近年来 NLP 重大进展的集大成者。预训练语言转载 2023-06-15 21:38:03 · 280 阅读 · 0 评论 -
00 预训练语言模型的前世今生(全文 24854 个词)
本篇文章共 25027 个词,一个字一个字手码的不容易,转载请标明出处:预训练语言模型的前世今生 - 从Word Embedding到BERT - 二十三岁的有德本文的主题是预训练语言模型的前世今生,会大致说下 NLP 中的预训练技术是一步一步如何发展到 Bert 模型的,从中可以很自然地看到 Bert 的思路是如何逐渐形成的,Bert 的历史沿革是什么,继承了什么,创新了什么,为什么效果那么好,主要原因是什么,以及为何说模型创新不算太大,为何说 Bert 是近年来 NLP 重大进展的集大成者。预训练语言转载 2023-06-05 22:28:41 · 220 阅读 · 1 评论 -
突发!ChatGPT之父警告AI可能灭绝人类,350名AI权威签署联名公开信
只有当我们确信AI系统的影响是积极的,风险是可控的,我们才应该开发强大的AI系统。这种信心必须得到充分的理由,并随着系统潜在影响的增大而增强。正如广泛认可的阿西洛马尔人工智能原则(Asilomar AI Principles)所指出的,先进的 AI 可能代表地球生命历史上的重大变革,因此应该以相应的关注和资源进行规划和管理。不幸的是,即使在最近几个月, AI 实验室在开发和部署越来越强大的数字化思维方面陷入了失控的竞争,而没有人能够理解、预测或可靠地控制这些数字化思维,即使是它们的创造者也无法做到这一点。原创 2023-06-05 22:24:24 · 426 阅读 · 0 评论 -
智能音箱借ChatGPT重获“新生”?
在智能家居场景中,小度灵机大模型可以化身为“智能管家”,例如在官方的测试中,测试员告诉智能管家他每天早上七点半一定要起床,周末可以晚一些,大概九点,干脆就九点半,冬天室内温度不能低于23度,夏天温度可以定在26度。一直以来,市场上的智能音箱产品多多少少都存在着交互体验差、应用场景单一、产品缺乏创新,以及互联互通差等问题,而当下以ChatGPT为代表的生成式AI技术,则在上下文理解、多轮对话、内容生成等方面,展现出了极高的交互水准,ChatGPT或将为智能音箱带来新的变量。原创 2023-06-03 13:36:35 · 576 阅读 · 0 评论 -
ChatGPT 70个插件小测全纪录
用户可以通过名称搜索音乐和播客,也可以根据他们喜欢的类型请求播放列表,包括流行、电子舞曲、嘻哈、K-pop、原声带、摇滚、永不出门、C-pop、J-pop、放松、乡村、HK和爵士等。用户可以通过名称搜索音乐和播客,也可以根据他们喜欢的类型请求播放列表,包括流行、电子舞曲、嘻哈、K-pop、原声带、摇滚、永不出门、C-pop、J-pop、放松、乡村、HK和爵士等。此外,插件还提供基于心情的播放列表,如健身、冷静、主题、浪漫、心情、晚餐、专注、旅行、睡眠、派对、好心情和通勤等。用户不能发送即时的单个短信。原创 2023-06-03 13:30:39 · 1060 阅读 · 0 评论 -
开源大语言模型完整列表
Large Language Model (LLM) 即大规模语言模型,是一种基于深度学习的自然语言处理模型,它能够学习到自然语言的语法和语义,从而可以生成人类可读的文本。所谓"语言模型",就是只用来处理语言文字(或者符号体系)的 AI 模型,发现其中的规律,可以根据提示 (prompt),自动生成符合这些规律的内容。LLM 通常基于神经网络模型,使用大规模的语料库进行训练,比如使用互联网上的海量文本数据。原创 2023-06-03 13:28:37 · 1241 阅读 · 0 评论 -
语言模型及Word2vec与Bert简析
将句子的概率分解为各个单词条件概率的乘积,如果文本较长, 条件概率的估算会非常困难(维数灾难),所以就规定当前词只和它前面的n个词有关,与更前面的词无关,每一个词只基于其前面N个词计算条件概率 —— N-gram语言模型,一般N取1到3之间。词的静态表征,不能解决同义词问题,如水果中的“苹果”和苹果公司的“苹果”,词向量表示是一样的,而实际上这两词的意思完全不一样。,来作为我们每个词的向量表示(词向量),用于nlp下游任务的输入或用于NLP模型的词嵌入。单词序列:[我, 狗, 被, 了, 咬]原创 2023-05-17 19:56:43 · 822 阅读 · 0 评论 -
ChatGPT+小红书爆文,牛!
首先你要把ChatGPT当成你团队的成员,它是很专业的,为了更好地利用ChatGPT作为团队成员,需要明确问题背景和目的,比如说你是谁,你要解决哪些问题,用什么方法,或者有什么样的一些建议,这点要明确下来。如果说他给出的一些答案,都是非常标准,或者比较机械化的,你应该告诉他你希望他能够更加灵活,以更人性化的方式回答问题,像一个正常的用户或者人去给出一些答案。比如你是否能理解小红书爆文的定义,如果他回答的问题,他不是你要的,你就跟他说,小红书爆文的定义是什么,让他明白这个定义是什么,接着后续提问。原创 2023-05-17 19:14:27 · 1030 阅读 · 0 评论 -
开源LLM「RWKV」想要打造AI领域的Linux和Android|ChatAI
二是所有的云服务资源消耗是不经济的,因为终端上有计算能力,但仍然要调用云端的计算能力,这是对算力的浪费。在同等参数量下,RWKV和这两个模型都是互有胜负的关系(有的能力更强,有的能力更弱)。LLaMA是1.5T,RWKV是0.3T,只有LLaMA的五分之一数据量,但现在RWKV的能力也已经很强,说明RWKV的上升空间很大。和他们相比,我们的资源消耗更低。举个简单例子,Attention的核心是Q、K、V,它会根据Query往前查找比对,找到匹配的Key,把Value取过来,这类似于人查阅资料的过程。原创 2023-05-17 19:12:38 · 983 阅读 · 0 评论 -
大语言模型的演进
目前包含70亿、130亿、330亿和650亿这4种参数规模的模型,参数仅为十分之一的LLaMA-130亿的性能优于OpenAI推出的GPT3(1750亿参数),也即支持ChatGPT的GPT3.5的前身。2022年11月30日,OpenAI发布了约2000亿参数的ChatGPT,是对GPT-3模型(又称为GPT-3.5)微调后开发出来的对话机器人。2023年3月14日,斯坦福大学发布了Alpaca,它是由Meta的LLaMA 70亿参数微调而来的全新模型,仅用了52k数据,性能约等于GPT-3.5。转载 2023-05-11 21:18:40 · 277 阅读 · 0 评论 -
被ChatGPT“抢饭碗”的人
身处芯片行业的合肥跃鞍电子负责人刘程(化名)对《橡果商业评论》介绍道,经过实验,他发现,ChatGPT已经可以实现一些复杂场景的代码开发,“无论是脚本,环境搭建,模块设计,还是VIP(Verification IP)设计,验证计划的提取,GPT都能参与其中。例如,C++已经有几十年历史,工程师更偏爱使用其他简洁语言,这让他们花费更少时间、精力,去写出更正确代码,但是ChatGPT问世以后,打破了这个规律,C++积累的代码量大,使用C++,ChatGPT生成结果质量最高。而科技进步,又依赖对教育的投入。原创 2023-05-11 21:15:04 · 1072 阅读 · 0 评论 -
全面接入!ChatGPT杀进15个商业应用,让AI替你打工
国内企业也已有布局,创立于2020年的计算美学(Nolibox)是清华大学孵化的科技企业,目前已推出了全球首款可商用视觉设计数据集,旗下核心产品包括AIGC生产力工具“画宇宙”、智能设计引擎“图宇宙”,下一步计划推出AI设计创意平台Yeahpix。4月,其他云大厂也陆续跟进。从知名投资团队启明创投的一张统计图可以看到,根据其与100多家企业交流统计,生成式AI创业覆盖的86%是应用领域,具体涉及聊天机器人、智能助手、AI服务、生产力工具、下一代交互等多个方面,追溯下一层具体场景更是门类众多。原创 2023-05-11 21:07:40 · 4296 阅读 · 0 评论 -
lmg_Model Links and Torrents
[05-07-2023] - Added Vicuna 13B Cocktail, bluemoonrp-13b & AlpacaDente2[05-05-2023] - Added CPU quantization variation links[05-02-2023] - Initial RentryVRAM Required takes full context (2048) into account. You may be able to load the model on GPU’s with原创 2023-05-09 20:01:31 · 882 阅读 · 0 评论 -
因去年开发出ChatGPT,OpenAI亏损5.4亿美元
不过,据 The Verge 透露,作为这项投资的一部分,微软在前期有权获得 OpenAI 75% 的利润,直到它收回投资的 100 亿美元,以及微软早期投资该公司的额外 30 亿美元。为此,OpenAI 亏损去年翻倍,也便不足为奇。更为不容忽视的是,对于这家开发了 ChatGPT 的初创公司而言,因为大模型需要耗费巨大的算力资源和数据,以及其背后运营也要付出不菲的开销,仅是在 2022 年,OpenAI 总计损失达到了 5.4 亿美元,与之形成鲜明对比的则是其产生的收入只有 2800 万美元。原创 2023-05-07 20:56:24 · 172 阅读 · 0 评论 -
国产版ChatGPT大盘点
②在算力方面,针对教育垂类,成本将有所下降。此外,在自然语言理解方面,中文的多义性有天然的高门槛,而像ChatGPT这类产品背后是整个互联网庞大的语料库,对于国内平台来说自然无法避免合规性的问题,因此除了自然的理解与回到用户的各种刁钻问题,中国版ChatGPT也需要比国外同类产品更严格的审核机制,甚至在早期可能还需要人工审核的存在。不久前腾讯发布财报后,腾讯总裁刘炽平也透露了腾讯聊天机器人的计划,“不急于求成,先打好基础,再追求新进展,我们的第一款产品将会是多次迭代之后的产品,整个过程将是长期的”。原创 2023-05-05 21:48:14 · 5291 阅读 · 0 评论