IBM也下场LLM了,自对齐、高效率的单峰驼Dromedary来了 最近的人工智能助手(AI-assistant agents),如 ChatGPT,主要依靠对人工注释的监督微调和从人类反馈中进行强化学习,以使大型语言模型 (LLM) 的输出与人类意图保持一致,确保它们是有用的、合乎道德的和可靠的。然而,由于获得人工监督的高成本以及质量、可靠性、多样性、自洽性和不良偏见的相关问题,这种依赖性会严重限制人工智能助手(AI-assistant agents)的真正潜力。
不止是数据,RedPajama的模型也出来了,RedPajama 7B, 一个开源的高效LLM模型 RedPajama和它背后的公司Together其实都挺有意思的。Together,由苹果前高管Vipul Ved Prakash,斯坦福大模型研究中心主任Percy Liang,苏黎世联邦理工大学助理教授张策等人联合创办。RedPajama是“一个创建领先的开源模型的项目,从复制超过1.2万亿个Token的LLaMA训练数据集开始”。这是Together,Ontocord.ai,ETH DS3Lab,斯坦福CRFM,Hazy Research和MILA Québec AI Institute之间的合作。
近期关于AIGC方面的学习笔记和思路整理 北方的郎:Transformer类模型应用情况的简单综述北方的郎:AI内容检测工具评测集合北方的郎:常用ChatGPT类模型的总结北方的郎:从GPT-1到GPT-4,GPT系列模型详解北方的郎:数据即模型,模型即数据感觉有帮助的朋友,欢迎赞同、关注、分享三连。^-^
MPT-7B:开源,商业可用,性能堪比LLaMA-7B的LLM新成员 Meta开源了LLama,不过有很多限制,很难商业运用。于是现在MosaicML开发了MPT-7B模型,它是一个基于Transformer在1T文本/代码Token上训练出来的模型。该模型开源,与LLaMA-7B模型效果相匹配,而且可用于商业用途。看过资料后感觉MPT-7B作为一个高效LLM模型的同时,也是MosaicML推介他们AI平台的一个广告。后续资料主要翻译自MosaicML的博文,翻译过程中内容有所修改,如果其中出现“我们”等字眼,指的都是MosaicML。
大语言模型(LLM)的进化树,学习LLM看明白这一张图就够了 近期大语言模型迅速发展,让大家看得眼花缭乱,感觉现在LLM的快速发展堪比寒武纪大爆炸,各个模型之间的关系也让人看的云里雾里。最近一些学者整理出了 ChatGPT 等语言模型的发展历程的进化树图,让大家可以对LLM之间的关系一目了然。论文:https://arxiv.org/abs/2304.13712Github(相关资源):https://github.com/Mooler0410/LLMsPracticalGuide进化的树图现代语言模型的进化树追溯了近年来语言模型的发展,并强调了一些最著名的模型。同一
新的生图模型DeepFloyd IF来了,可以拳打Stable Diffusion,脚踢Dall-E? Stability AI与它的多模式AI研究实验室DeepFloyd共同宣布研究版本DeepFloyd IF的发布,这是一款强大的文text-to-image级联像素扩散模型(cascaded pixel diffusion model),复现了Google的Imagen(北方的郎:深入浅出讲解Stable Diffusion原理,新手也能看明白),Imagen也依赖于一个冻结的文本编码器:先将文本提示转换为嵌入,然后由扩散模型解码成图像。
Starcoder:愿源码与你同在, 最新的开源代码生成LLM来了 在5月4日,BigCoder在HuggingFace的支持下发布了开源代码生成模型Starcoder。为方便查找,以下是主要的参考和资源链接:VSCode插件:HF Code AutocompleteStarCoder 和 StarCoderBase 是代码的大型语言模型 (Code LLM),使用来自 GitHub 的许可数据进行训练,包括来自 80+ 编程语言、Git 提交、GitHub 问题和 Jupyter 笔记本。与LLaMA类似,研究者为15万亿个Token训练了一个~1B参数模型。
能满足各种音频处理需求的AI解决方案-AudioGPT来了 近期HuggingFace发布了能满足各种音频处理需求的AI解决方案AudioGPT。我觉得种模式以后会经常见到,即ChatGPT等大型LLM充当大脑,其他专业模型充当工具,实现1+1>2的效果。各种资源地址:代码地址:https://github.com/AIGC-Audio/AudioGPT论文:[2304.12995] AudioGPT: Understanding and Generating Speech, Music, Sound, and Talking Head (arxiv.org)Dem
联网、多模态版ChatGPT?微软BingChat评测,New Bing竟然是个大美女? 今天把它的功能简单评测一下,首先如果想要体验多模态,要选择更有创造力选项。微软开放了New Bing,大家都可以注册使用了,详细见我的文章。这就是NewBing的自画像。
深入浅出讲解Stable Diffusion原理,新手也能看明白 VAE文件在Stable Diffusion v1中使用,以改善眼睛和面部的绘画效果。它们是我们刚刚谈到的自编码器的解码器。通过进一步微调解码器,模型可以绘制更精细的细节。你可能会意识到我之前提到的一处内容并不完全正确。将图像压缩到潜在空间中确实会丢失信息,因为原始VAE无法恢复精细细节。相反,VAE解码器负责在解码的时候绘制精细的细节。如果不解释无分类器引导(Classifier-Free Guidance,CFG),这篇文章将是不完整的,这是AI艺术家每天调来调去的值。
微软放大招,所有人都能用New Bing了 原话是:Now you can search, chat, and create, all in one place. Turn your words into images with the new Bing's AI-powered Image Creator in chat。只需要注册一个微软账号就能用BingChat了。微软管这叫由 AI 支持的网页版 Copilot(Your Copilot for the Web)。今天,微软官宣全面开放BingChat。稍微测试了一下,的确功能强大。
Transformer类模型应用情况的简单综述 如ViT可以有效联合图像与文本,用于多模态学习。相比于CNN与RNN,Transformer可以更好建模语音信号中的长序列依赖关系与上下文,获得更丰富的语义表达,特别在noisy语音与远场环境下的表现更佳,这显示Transformer在语音理解领域也有重要的应用前景。整体来说,Transformer通过强大的自监督表示学习能力,在NLP、视觉、语音、强化学习与推荐等领域都有成功应用,表现出跨模态的建模能力和捕捉复杂序列依赖的优势,已成为机器学习领域最为流行和有影响力的模型之一,未来发展潜力巨大。
继针对图像的分割一切之后,针对视频的Track-Anything(追踪一切)来了 论文《Track Anything: Segment Anything Meets Videos》提出了一种视频目标跟踪的新方法。其主要内容整理如下:Track Anything Model (TAM):一个通用的视频目标跟踪框架,可以跟踪任意目标而不需要手工标注。最近,Meta AI研究提出了Segment Anything模型(SAM),得到了大量关注。作为图像分割的基础模型,SAM基于ViT模型,在大规模数据集SA-1B上训练。SAM在图像上展示了很强的分割能力,特别是在零样本分割任务上。
火车票OCR读取及结构化处理,Gradio编写界面,代码及说明 前一段时间用到火车票OCR处理,因为要求不高就自己简单写了一个。首先是模型选择,初步对比了几个开源的OCR产品后,选择了百度的PaddleOCR。自己用Python开发了一个简单的数据结构化功能,并用Gradio写了一个简答的界面。代码为本人原创,未经允许,不得转载。
AI内容检测工具之GPTZero,简介并针对Chat GPT,Claude,文心一言进行评测 最近随着ChatGPT火爆,各种大型语言模型都开始飞速发展,并被运用到了各行各业。带来生产力飞速提升的同时,也带来了一些问题。比如一名老师,该如何判断学生提交的作业是否是使用ChatGPT来写的呢?它自称是最好的检测工具:初步用了一下,感觉GPTZero有两点比较好:首先是相比于AI Classifier的1000字的限制,它只需要250个,其次是会把它认为是AI生成的内容标黄展示。那就让我们来详细实验一下吧。
AI内容检测工具之OpenAI自己的AI classifier 最近随着ChatGPT火爆,各种大型语言模型都开始飞速发展,并被运用到了各行各业。带来生产力飞速提升的同时,也带来了一些问题。比如一名老师,该如何判断学生提交的作业是否是使用ChatGPT来写的呢?于是首先OpenAI作为问题的制造者,就最先站出来拿出了他们的解决方案:AI Text Classifier。这个工具使用很简单,只需要把你的文本内容复制到检测框里,就可以检测出你的这些内容是否由AI生成。感觉分辨的还是挺准确的。看来这个工具主要对于OpenAI自家的产品好用,其他的感觉还是一般。
玩LLM和StableDiffusion常说的LoRA到底是什么 在微软的论文《LoRA: Low-Rank Adaptation of Large Language Models》提出了一种低秩adapters学习技术LoRA,实现大规模语言模型的跨领域与跨语言迁移。Stable Diffusion是一个通用的多模态模型,而通过LoRA可以学习特定领域的适配器,实现模型到特定领域如科技新闻、体育赛事的迁移,产生更加专业与准确的生成效果。5. 语言协同训练:通过分别学习单语言adapters与跨语言adapters,可以实现多语言模型的协同训练与融合。
HuggingChat来了-各种Chat这么火Huggingface终于也忍不住了 现在你如果进入Huggingface的网站,你会发现HuggingFace偷偷的上了Chat功能:点击starting chatting之后的界面是这样的:和其他的Chat的界面很类似。
DINOv2: A Self-supervised Vision Transformer Model 作者指出:自然语言处理领域近期在大规模数据的模型预训练方面取得的突破为计算机视觉领域的类似基础模型铺平了道路。这些模型可以通过产生通用的视觉特征大大简化任何系统中图像的使用,即在不进行微调的情况下适用于图像分布和任务的特征。这也是本文的中心思想,即可以通过类似的方法来训练模型,生成一些通用的视觉特征,这些特征适用于不同的图像分布和不同的任务,无需进行进一步的微调即可使用。3. 动量更新:学生网络的输出通过带有动量的更新规则不断逼近教师网络的输出,实现自下而上的特征学习过程。动量可以平滑更新并加速学习。