![](https://img-blog.csdnimg.cn/20201014180756922.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
AI
文章平均质量分 87
沧海之巅
这个作者很懒,什么都没留下…
展开
-
05 神经网络语言模型(独热编码+词向量的起源)
神经网络语言模型:通过神经网络解决两个人说的话的问题有一个副产品:Q 矩阵–》新的词向量(词向量可以选择词向量的维度,可以求两个词之间的相似程度)下游任务。转载 2023-07-08 17:46:15 · 85 阅读 · 1 评论 -
03 什么是预训练(Transformer 前奏)
一个任务 A,一个任务 B,两者极其相似,任务 A 已经训练处一个模型 A,使用模型 A 的浅层参数去训练任务 B,得到模型 B,1.转载 2023-07-08 17:44:50 · 80 阅读 · 0 评论 -
大语言模型的进化树,这是一份超详细ChatGPT「食用」指南
在最后也是最重要的部分,本文会深入各种具体的 NLP 任务,介绍 LLM 是否适用于知识密集型任务、传统 NLU 任务和生成任务,此外还会描述这些模型不断获得的新能力以及具有挑战性的现实世界应用场景。不适用 LLM:对于大多数自然语言理解任务,比如 GLUE 和 SuperGLUE 中的任务,如果该任务已有丰富的标注良好的数据并且测试集中仅有非常少的数据在分布之外,那么微调模型的表现依然更好。(3)模型的能力并不总是会随规模提升,而且我们对大型语言模型的能力与规模的关系的理解还很有限。原创 2023-07-04 21:44:28 · 145 阅读 · 0 评论 -
从Word Embedding到Bert模型—自然语言处理中的预训练技术发展史
Bert最近很火,应该是最近最火爆的AI进展,网上的评价很高,那么Bert值得这么高的评价吗?我个人判断是值得。那为什么会有这么高的评价呢?是因为它有重大的理论或者模型创新吗?其实并没有,从模型创新角度看一般,创新不算大。但是架不住效果太好了,基本刷新了很多NLP的任务的最好性能,有些任务还被刷爆了,这个才是关键。另外一点是Bert具备广泛的通用性,就是说绝大部分NLP任务都可以采用类似的两阶段模式直接去提升效果,这个第二关键。客观的说,把Bert当做最近两年NLP重大进展的集大成者更符合事实。原创 2023-07-04 21:43:56 · 1405 阅读 · 0 评论 -
今日大模型日报
Github地址:https://github.com/VinAIResearch/XPhoneBERT论文地址:https://arxiv.org/abs/2305.19709XPhoneBERT是第一个预先训练用于学习下游文本到语音(TTS)任务的音素表示的多语言模型。我们的XPhoneBERT具有与BERT基础相同的模型架构,使用RoBERTa预训练方法对近100种语言和地区的3.3亿音素级句子进行训练。原创 2023-07-04 21:41:20 · 390 阅读 · 0 评论 -
Lion闭源大语言模型的对抗蒸馏框架实践
对抗蒸馏框架概述:我们基于高级闭源LLM的基础上提炼一个学生LLM,该LLM具有三个角色:教师、裁判和生成器。有三个迭代阶段:模仿阶段,对于一组指令,将学生的响应与老师的响应对齐;区分阶段,识别出难指令;生成阶段,根据识别出的难指令,产生新的难指令以增加对学生模型的挑战。原创 2023-07-04 21:40:31 · 1026 阅读 · 0 评论 -
Lion:闭源大语言模型的对抗蒸馏
最终训练好的模型被命名为。作者利用 LLM 的多功能角色适应性,使用不同的 prompt 让闭源模型识别“难”的指令,并为学生模型生成新的“难”指令,从而创建了一个包含模仿、辨别和生成的三阶段对抗循环。,由香港科技大学提出的针对闭源大语言模型的对抗蒸馏框架,成功将 ChatGPT 的知识转移到了参数量 7B的 LLaMA 模型(命名为 Lion),在只有 70k训练数据的情况下,实现了近 95%的 ChatGPT 能力近似。作者也指出,对于如何衡量大模型的能力,一个统一的、全面的评价指标是必要的。原创 2023-07-04 21:39:37 · 1307 阅读 · 0 评论 -
Lion:闭源大语言模型的对抗性蒸馏
我们的对抗性蒸馏框架的高级概述,其中我们基于高级闭源 LLM 制作了一个紧凑的学生 LLM,该 LLM 服务于三个角色:教师**、裁判员和生成器**。模仿阶段*,*使学生的反应与教师的反应保持一致;识别硬样本的辨别阶段;生成阶段,用于生成新的硬样本*,*以升级向学生模型提出的挑战。原创 2023-07-04 21:38:40 · 1364 阅读 · 0 评论 -
00 预训练语言模型的前世今生(全文 24854 个词)
本篇文章共 25027 个词,一个字一个字手码的不容易,转载请标明出处:预训练语言模型的前世今生 - 从Word Embedding到BERT - 二十三岁的有德本文的主题是预训练语言模型的前世今生,会大致说下 NLP 中的预训练技术是一步一步如何发展到 Bert 模型的,从中可以很自然地看到 Bert 的思路是如何逐渐形成的,Bert 的历史沿革是什么,继承了什么,创新了什么,为什么效果那么好,主要原因是什么,以及为何说模型创新不算太大,为何说 Bert 是近年来 NLP 重大进展的集大成者。预训练语言转载 2023-06-05 22:28:41 · 163 阅读 · 1 评论 -
突发!ChatGPT之父警告AI可能灭绝人类,350名AI权威签署联名公开信
只有当我们确信AI系统的影响是积极的,风险是可控的,我们才应该开发强大的AI系统。这种信心必须得到充分的理由,并随着系统潜在影响的增大而增强。正如广泛认可的阿西洛马尔人工智能原则(Asilomar AI Principles)所指出的,先进的 AI 可能代表地球生命历史上的重大变革,因此应该以相应的关注和资源进行规划和管理。不幸的是,即使在最近几个月, AI 实验室在开发和部署越来越强大的数字化思维方面陷入了失控的竞争,而没有人能够理解、预测或可靠地控制这些数字化思维,即使是它们的创造者也无法做到这一点。原创 2023-06-05 22:24:24 · 407 阅读 · 0 评论 -
收入最高的十大IT职位
毫无疑问,IT 管理岗位赚取最高的平均工资,Dice 网站的报告称,2022 年该职位的平均年薪为 164814 美元,比 2021 年增长了 8.4%。管理信息系统经理负责管理一个 IT 专业团队,规划、开发、实施和维护企业的 IT 系统,并确保系统可扩展,以及安全、高效和可靠地运行。产品经理需要收集客户需求,设计产品路线图,开展市场调查,与企业内的相关团队合作,确定需要优先解决的关键功能,并跟踪产品推出后的表现。这一角色要求你能够明确资源需求,创建和界定项目目标,制定必要的时间表,并确定潜在风险。原创 2023-06-05 22:22:14 · 232 阅读 · 0 评论 -
智能音箱借ChatGPT重获“新生”?
在智能家居场景中,小度灵机大模型可以化身为“智能管家”,例如在官方的测试中,测试员告诉智能管家他每天早上七点半一定要起床,周末可以晚一些,大概九点,干脆就九点半,冬天室内温度不能低于23度,夏天温度可以定在26度。一直以来,市场上的智能音箱产品多多少少都存在着交互体验差、应用场景单一、产品缺乏创新,以及互联互通差等问题,而当下以ChatGPT为代表的生成式AI技术,则在上下文理解、多轮对话、内容生成等方面,展现出了极高的交互水准,ChatGPT或将为智能音箱带来新的变量。原创 2023-06-03 13:36:35 · 537 阅读 · 0 评论 -
ChatGPT 70个插件小测全纪录
用户可以通过名称搜索音乐和播客,也可以根据他们喜欢的类型请求播放列表,包括流行、电子舞曲、嘻哈、K-pop、原声带、摇滚、永不出门、C-pop、J-pop、放松、乡村、HK和爵士等。用户可以通过名称搜索音乐和播客,也可以根据他们喜欢的类型请求播放列表,包括流行、电子舞曲、嘻哈、K-pop、原声带、摇滚、永不出门、C-pop、J-pop、放松、乡村、HK和爵士等。此外,插件还提供基于心情的播放列表,如健身、冷静、主题、浪漫、心情、晚餐、专注、旅行、睡眠、派对、好心情和通勤等。用户不能发送即时的单个短信。原创 2023-06-03 13:30:39 · 969 阅读 · 0 评论 -
开源大语言模型完整列表
Large Language Model (LLM) 即大规模语言模型,是一种基于深度学习的自然语言处理模型,它能够学习到自然语言的语法和语义,从而可以生成人类可读的文本。所谓"语言模型",就是只用来处理语言文字(或者符号体系)的 AI 模型,发现其中的规律,可以根据提示 (prompt),自动生成符合这些规律的内容。LLM 通常基于神经网络模型,使用大规模的语料库进行训练,比如使用互联网上的海量文本数据。原创 2023-06-03 13:28:37 · 1161 阅读 · 0 评论 -
语言模型及Word2vec与Bert简析
将句子的概率分解为各个单词条件概率的乘积,如果文本较长, 条件概率的估算会非常困难(维数灾难),所以就规定当前词只和它前面的n个词有关,与更前面的词无关,每一个词只基于其前面N个词计算条件概率 —— N-gram语言模型,一般N取1到3之间。词的静态表征,不能解决同义词问题,如水果中的“苹果”和苹果公司的“苹果”,词向量表示是一样的,而实际上这两词的意思完全不一样。,来作为我们每个词的向量表示(词向量),用于nlp下游任务的输入或用于NLP模型的词嵌入。单词序列:[我, 狗, 被, 了, 咬]原创 2023-05-17 19:56:43 · 705 阅读 · 0 评论 -
ChatGPT+小红书爆文,牛!
首先你要把ChatGPT当成你团队的成员,它是很专业的,为了更好地利用ChatGPT作为团队成员,需要明确问题背景和目的,比如说你是谁,你要解决哪些问题,用什么方法,或者有什么样的一些建议,这点要明确下来。如果说他给出的一些答案,都是非常标准,或者比较机械化的,你应该告诉他你希望他能够更加灵活,以更人性化的方式回答问题,像一个正常的用户或者人去给出一些答案。比如你是否能理解小红书爆文的定义,如果他回答的问题,他不是你要的,你就跟他说,小红书爆文的定义是什么,让他明白这个定义是什么,接着后续提问。原创 2023-05-17 19:14:27 · 982 阅读 · 0 评论 -
开源LLM「RWKV」想要打造AI领域的Linux和Android|ChatAI
二是所有的云服务资源消耗是不经济的,因为终端上有计算能力,但仍然要调用云端的计算能力,这是对算力的浪费。在同等参数量下,RWKV和这两个模型都是互有胜负的关系(有的能力更强,有的能力更弱)。LLaMA是1.5T,RWKV是0.3T,只有LLaMA的五分之一数据量,但现在RWKV的能力也已经很强,说明RWKV的上升空间很大。和他们相比,我们的资源消耗更低。举个简单例子,Attention的核心是Q、K、V,它会根据Query往前查找比对,找到匹配的Key,把Value取过来,这类似于人查阅资料的过程。原创 2023-05-17 19:12:38 · 916 阅读 · 0 评论 -
大语言模型的演进
目前包含70亿、130亿、330亿和650亿这4种参数规模的模型,参数仅为十分之一的LLaMA-130亿的性能优于OpenAI推出的GPT3(1750亿参数),也即支持ChatGPT的GPT3.5的前身。2022年11月30日,OpenAI发布了约2000亿参数的ChatGPT,是对GPT-3模型(又称为GPT-3.5)微调后开发出来的对话机器人。2023年3月14日,斯坦福大学发布了Alpaca,它是由Meta的LLaMA 70亿参数微调而来的全新模型,仅用了52k数据,性能约等于GPT-3.5。转载 2023-05-11 21:18:40 · 228 阅读 · 0 评论 -
被ChatGPT“抢饭碗”的人
身处芯片行业的合肥跃鞍电子负责人刘程(化名)对《橡果商业评论》介绍道,经过实验,他发现,ChatGPT已经可以实现一些复杂场景的代码开发,“无论是脚本,环境搭建,模块设计,还是VIP(Verification IP)设计,验证计划的提取,GPT都能参与其中。例如,C++已经有几十年历史,工程师更偏爱使用其他简洁语言,这让他们花费更少时间、精力,去写出更正确代码,但是ChatGPT问世以后,打破了这个规律,C++积累的代码量大,使用C++,ChatGPT生成结果质量最高。而科技进步,又依赖对教育的投入。原创 2023-05-11 21:15:04 · 1030 阅读 · 0 评论 -
全面接入!ChatGPT杀进15个商业应用,让AI替你打工
国内企业也已有布局,创立于2020年的计算美学(Nolibox)是清华大学孵化的科技企业,目前已推出了全球首款可商用视觉设计数据集,旗下核心产品包括AIGC生产力工具“画宇宙”、智能设计引擎“图宇宙”,下一步计划推出AI设计创意平台Yeahpix。4月,其他云大厂也陆续跟进。从知名投资团队启明创投的一张统计图可以看到,根据其与100多家企业交流统计,生成式AI创业覆盖的86%是应用领域,具体涉及聊天机器人、智能助手、AI服务、生产力工具、下一代交互等多个方面,追溯下一层具体场景更是门类众多。原创 2023-05-11 21:07:40 · 4252 阅读 · 0 评论 -
最时髦的AI画画,一文包教包会
可以商用自己创作的图像,但图像如果是通过 DreamStudio 生成的,就自动变成了 CC0 1.0 授权,这样,服务提供商 Stability.ai 也能处理你的图像,无需付费甚至不会经过你同意,也会一并成为通用公共领域 royalty-free 的图片资源。6pen 基于市面上已有的开源模型 Latent Diffusion 和 Disco Diffusion,做了自研模型,还根据生成速度和体量,分别研发了擅长小体量、简单场景的南瓜模型,和擅长复杂场景,但响应速度较慢的西瓜模型。原创 2023-05-09 20:00:05 · 1485 阅读 · 0 评论