人工智能
文章平均质量分 74
AI 研习所
这个作者很懒,什么都没留下…
展开
-
通义千问2.5中文能力地表最强
在OpenCompass基准测试中,通义千问2.5的表现与GPT-4 Turbo并驾齐驱,显示出其卓越的性能,阿里的1100亿参数开源模型Qwen1.5-110B在性能上超越了Meta公司的Llama-3-70B模型,进一步证明了其技术实力。通义千问2.5在AI问答领域取得了显著的进展,其在理解力、逻辑推理、指令执行和编程技能方面分别实现了9%、16%、19%和10%的性能提升。通义千问2.5具备自我学习和优化的能力,通过不断的交互学习,系统能够逐渐提升其回答的质量和准确性。原创 2024-05-10 18:25:33 · 256 阅读 · 0 评论 -
DataLab-数据分析的Ai辅助工具
添加图片注释,不超过 140 字(可选)DataLab是一个由DataCamp提供的强大在线数据分析平台,它通过AI技术简化了数据处理流程,使得用户无需编程或数据分析的高级技能即可快速获取数据洞察。它支持多种数据源,包括CSV文件、Google Sheets、Snowflake和BigQuery等,同时提供企业级的安全保障,包括数据加密和单点登录等。DataLab的主要优点在于它的易用性、AI辅助分析、以及对数据安全性的重视。原创 2024-05-10 18:15:02 · 153 阅读 · 0 评论 -
英伟达推出视觉语言模型:VILA
1.情境学习与泛化能力:VILA通过预训练不仅提升了情境学习能力,即模型对新情境的适应性和学习能力,而且还优化了其泛化能力,使模型能在不同的视觉语言任务上展现出色的性能。这个框架旨在通过有效的嵌入对齐和动态神经网络架构,改进语言模型的视觉和文本的学习能力。3.融合层:融合层是VILA模型的核心,它负责整合来自视觉处理单元和语言处理单元的信息,生成统一的、多模态的表示,这对于执行跨模态任务至关重要4.优化策略:包括技术如弹性权重共享和梯度截断,这些策略帮助模型在训练过程中保持稳定,并优化跨模态信息的流动。原创 2024-05-06 18:42:55 · 729 阅读 · 0 评论 -
ollama-python-Python快速部署Llama 3等大型语言模型最简单方法
ollama介绍在本地启动并运行大型语言模型。运行Llama 3、Phi 3、Mistral、Gemma和其他型号。原创 2024-04-30 17:35:48 · 1094 阅读 · 0 评论 -
变革 Perplexica:AI驱动的问答搜索引擎
如果您将Ollama安装在端口11434上,请使用http://host.docker.internal:11434。如果您希望使用Ollama的模型而不是OpenAI的模型,则需要填写此项。受Perplexity AI启发,它是一个开源选择,不仅可以搜索网络,还能理解您的问题。它使用先进的机器学习算法,如相似性搜索和嵌入式技术,以精细化结果,并提供附有来源的清晰答案。CHAT_MODEL:要使用的LLM的名称。注意:您可以在运行Perplexica后更改这些内容,并且还可以从设置页面中使用不同的模型。原创 2024-04-29 18:36:24 · 1938 阅读 · 0 评论 -
看完这个视频,发誓再也不当榜一大哥了
该视频使用的软件为DeepFacelive,一个可以在直播过程和视频通话时进行实时换脸的本地工具。DeepFaceLive 建立在 DeepFaceLab 的基础上,后者为当前领先的面部交换框架,能够产生接近电影质量的面部合成效果,提供高保真的视觉体验。原创 2024-04-26 22:50:43 · 279 阅读 · 0 评论 -
港股“AIGC第一股”出门问问,凭借什么产品做到上市?
在这样的背景下,出门问问(股票代码:2438.HK)作为AIGC领域的先行者,于2024年4月24日正式登陆港交所,成为港股市场上“AIGC第一股”。面向创作者,出门问问提供AIGC(AI Generated Content,人工智能生成内容)产品和服务,包括AI配音工具“魔音工坊”及其海外版DupDub,AI数字人“奇妙元”,以及AI绘画助手言之书和AI写作助手奇妙文等。然而,面对激烈的市场竞争和技术迭代的挑战,出门问问能否持续其在AIGC领域的领先地位,还需要看其未来的技术创新和商业模式的持续探索。原创 2024-04-25 16:00:25 · 391 阅读 · 0 评论 -
只占 1.8G 内存,iPhone上就可以部署的模型,水平相当于GPT-3.5
微软还初步展示了在训练达4.8万亿 Token 的情况下,使用7B和14B参数的模型(名为 phi-3-small 和 phi-3-medium)所取得的成效,这两个模型的性能均显著优于 phi-3-mini(例如,在 MMLU 测试中分别达到75%和78%,在 MT-bench 测试中分别得分为8.7和8.9)。微软的phi-3-mini 模型太强了。模型下载:https://huggingface.co/microsoft/Phi-3-mini-128k-instruct-onnx。原创 2024-04-24 18:51:45 · 356 阅读 · 0 评论 -
Llama3-8中文微调完成更好地帮助中文写作、编程和数学
让C表示鸡的数量,R表示兔的数量。所以,我们可以写出以下方程:C+R=10..(1)2C+4R=28..(2)现在,我们可以解出C和R的方程。与原始的 Meta-Llama-3-8B-Instruct 模型相比,此模型显著减少了“中文问题英文回答"和混合中英文回答的问题。因此,二班和三班的剩余梨数量可以通过从总数中减去一个班的数量来计算: 40-20=20个梨 现在,这些剩余的20个梨需要被平均分给二班和三班。要找到二班的份额,可以将剩余数量除以2,因为有两个班:20/2=10个梨,因此,二班有10个梨。原创 2024-04-23 19:16:37 · 978 阅读 · 0 评论 -
AI检索增强生成引擎-RAGFlow-深度理解知识文档,提取真知灼见
RAGFlow是一款基于深度文档理解构建的开源RAG(Retrieval-Augmented Generation)引擎。RAGFlow个人可以为各种规模的企业及提供一套专业的RAG工作流程,结合针对用户群体的大语言模型(LLM)不同的复杂格式数据提供可靠的问答以及有理有据的引用。原创 2024-04-22 21:42:56 · 595 阅读 · 1 评论 -
Llama 3 王者归来,第一个达到GPT-4级别的开源模型
训练数据集是 Llama 2 的七倍,包含的代码数量也是 Llama 2 的四倍。为了应对即将到来的多语言使用情况,Llama 3 的预训练数据集中有超过 5% 的高质量非英语数据,涵盖 30 多种语言。后期训练程序的改进大大降低了错误拒绝率,提高了对齐度,并增加了模型响应的多样性。Llama 3,包括预训练和指令调优的8B和70B两种参数的模型。详细介绍:https://ai.meta.com/blog/meta-llama-3/模型下载:https://llama.meta.com/llama3/原创 2024-04-19 16:40:12 · 197 阅读 · 0 评论 -
波士顿动力发布全新人形机器人:Atlas
这款机器人的动作灵活,可以执行复杂的任务,如从地面自行站立等特别是在复杂和狭窄的空间中,提高了机器人在实际工作环境中的适用性。4、先进的软件和AI工具:配备了最新的AI和机器学习工具,如强化学习和计算机视觉,确保机器人能够适应并高效处理复杂的实际情况。2、增强的力量和灵活性:电动Atlas具有比以往任何一代更强大的力量和更广泛的运动范围,使其能够执行更复杂的操作和任务。3、实用的工业应用设计:设计目标是应用于真实世界的工业场景,如汽车制造和其他高要求的工业环境,支持复杂的工业操作。原创 2024-04-18 19:07:29 · 408 阅读 · 0 评论 -
The O-one:开源语言模型计算机的革命
最引人注目的是,The O-one是一个开源项目。它的出现,不仅为用户提供了一种全新的与计算机交流的方式,也为人工智能的发展和应用提供了新的可能性。在人工智能的浪潮中,The O-one作为一个创新的开源项目,正以其独特的功能和开放性吸引着全球开发者和科技爱好者的目光。这种持续学习和自我提升的能力,使得The O-one能够不断适应用户的需求,提供更加个性化和智能化的服务。它能够访问用户的邮件,进行邮件管理,甚至可以自动发送包含指定文件的邮件给特定联系人,减轻了用户在邮件沟通和文件分享方面的负担。原创 2024-04-17 19:06:00 · 692 阅读 · 0 评论 -
强大的开源知识库问答系统MaxKB:支持快速嵌入到第三方业务系统
密码: MaxKB@123..你也可以通过 1Panel 应用商店 快速部署 MaxKB + Ollama + Llama 2,30 分钟内即可上线基于本地大模型的知识库问答系统,并嵌入到第三方业务系统中。你也可以在线体验:DataEase 小助手,它是基于 MaxKB 搭建的智能问答系统,已经嵌入到 DataEase 产品及在线文档中。MaxKB 是一款基于 LLM 大语言模型的知识库问答系统。基于 LLM 大语言模型的知识库问答系统。开箱即用,支持快速嵌入到第三方业务系统,1Panel 官方出品。原创 2024-04-16 17:45:33 · 1396 阅读 · 0 评论 -
新晋网红AI工具Notion正在挑战GPT市值超100亿美元
他得出的结论是,这些都是无用的。增加更多自动化—加上 1 月推出的日历服务和可能由于 2 月的一次收购而来的电子邮件客户端—赵的野心变得更加明显:要将 Notion 建设成一个办公室的全能应用,将来可能挑战 Microsoft 和 Google 的统治,这两家公司共控制了价值 520 亿美元 (2022 年销售额) 的生产力套件市场的 99%,根据 Gartner 的数据。现在,这家盈利的创业公司的 CEO 看到了一个突破机会,他计划抓住 AI 的先机并大胆进攻,挑战微软和谷歌在职场的主导地位。原创 2024-04-15 18:35:06 · 938 阅读 · 0 评论 -
重磅,新GPT-4-Turbo重新夺回大模型第一名
上下文长度128k 输出速度更快。GPT-4 Turbo的模型大小为100B参数,这意味着它可以处理更多信息,生成更复杂和细腻的输出,而GPT-4的模型大小为10B参数。GPT-4 Turbo的训练数据包含到2023年4月的信息,而GPT-4的数据截止于2021年9月,后来扩展到2022年1月。GPT-4 Turbo拥有更大的上下文窗口,可以处理高达128K个token,而GPT-4的上下文窗口较小。对于开发者来说,GPT-4 Turbo的使用成本更低,因为它的运行成本对OpenAI来说更低。原创 2024-04-12 16:00:50 · 366 阅读 · 1 评论 -
谷歌大模型震撼发布,长音频理解能力脱颖而出
性能方面,开发者现在可以通过Gemini API访问到下一代文本嵌入模型text-embedding-004(在Vertex AI中为text-embedding-preview-0409),该模型在MTEB基准测试中展现了卓越的检索性能,超越了所有具有可比维度的现有模型。这使得模型不仅能够理解视频的视觉内容,还能够分析视频中的音频元素,如对话和背景音乐,从而实现对视频内容的全面理解。综合理解视频图像和音频的能力,也使得Gemini 1.5 Pro能够在内容创作领域发挥作用,如自动生成视频字幕和配音。原创 2024-04-11 19:12:50 · 387 阅读 · 0 评论 -
可在手机上运行的2B LLMs ,看看斯坦福大学的这个项目
在此基础上,通过引入特殊的功能性标记(functional tokens)和进行细致的微调,Octopus v2能够理解和执行软件应用中的函数调用,从而实现了在设备上运行时更高的准确性和更低的延迟。在预训练模型的基础上,通过对模型进行细致的微调来适应具体的函数调用任务这一步骤涉及将功能性标记及其对应的函数描述加入训练数据中,训练模型以理解和映射这些标记到相应的软件操作上。2.优化的延迟:相比传统的基于RAG的功能调用方法,Octopus v2大幅减少了延迟,提高了推理速度,适合实时应用。原创 2024-04-10 17:53:49 · 392 阅读 · 0 评论 -
Docker仅需3步搭建免费私有化的AI搜索引擎-FreeAskInternet
FreeAskInternet 是一个完全免费、私有且本地运行的搜索聚合器,并使用 LLM 生成答案,无需 GPU。用户可以提出问题,系统将使用searxng进行多引擎搜索,并将搜索结果合并到ChatGPT3.5 LLM中,并根据搜索结果生成答案。用户可以提出问题,系统会进行多引擎搜索,并将搜索结果合并到ChatGPT3.5 LLM中,并根据搜索结果生成答案。需要你的服务器有docker环境。我们可以看到,除了根据搜索内容配合AI总结返回内容外,还可以同时搜索图片,和视频,体验是非常不错的。原创 2024-04-09 18:27:30 · 708 阅读 · 0 评论 -
OpenAI又更新,自定义AI模型上线
他们的团队修改了模型训练过程的每一个步骤,从领域特定的中间训练到定制后训练过程,并结合专家律师的反馈。今天,他们推出了新功能,以便开发者更好地控制API中的微调,并介绍更多与他们的AI专家团队和研究人员合作构建自定义模型的方法。成功使用完全定制训练模型的组织通常拥有大量专有数据,即数百万个示例或数十亿个令牌,他们希望使用这些数据来教模型新的知识或复杂、独特的行为,以满足高度具体的用例需求。自那时以来,他们与数十个客户会面,评估他们的定制模型需求,并将他们的计划进化到进一步最大化性能的程度。原创 2024-04-08 19:07:57 · 632 阅读 · 0 评论 -
吐血总结 2024 年排名前 7 位的生成式 AI 服务和供应商
训练生成式人工智能模型是一个具有挑战性的过程,需要专业技能,因为它涉及:·理解复杂的算法·优化神经网络架构·处理大型数据集·微调模型以生成高质量的输出,同时避免过度拟合或模式崩溃等陷阱。在这里,我们探讨了 7 种类型的生成式人工智能服务,这些服务有助于增强企业对生成式人工智能技术的使用,从而获得竞争优势。人工智能基础模型是任何生成式人工智能系统的支柱。亚马逊的 SageMaker 是一项完全托管的服务,为开发人员和数据科学家提供构建、训练和部署机器学习模型(包括生成式 AI 模型)的能力。原创 2024-03-20 23:14:05 · 558 阅读 · 0 评论 -
Sora没体验资格?开源项目:Open-Sora,复现类Sora视频生成方案
项目简介Open-Sora项目是一项高效制作高质量视频的工作,明确所有权使用其模型、工具和内容的计划。通过采用开源原则,Open-Sora 不仅实现了先进的视频生成技术的普及,还提供了一个专业且用户界面的方案,简化了视频制作的复杂性。通过 Open-Sora,我们希望更多的开发者一起探索内容创作领域的创新、创造和遏制。项目展示。原创 2024-03-19 18:27:35 · 1315 阅读 · 0 评论 -
MindGraph:文字生成知识图
进一步的集成,包括add_multiple_conditional、conditional_entity_addition和conditional_relationship_addition,协同工作,以确保应用程序数据模型的完整性和增强。模式确保由AI生成的知识图不仅与应用程序的数据模型一致,而且丰富详细,捕捉输入文本中描述的实体之间的微妙关系。欢迎来到MindGraph,这是一个概念验证、开源的、以API为先的基于图形的项目,旨在通过自然语言的交互(输入和输出)来构建和定制CRM解决方案。原创 2024-03-18 22:06:50 · 919 阅读 · 0 评论 -
GPT-4.5 Turbo:意外曝光且可能在六月份推出
这与OpenAI以往发布新模型后立即提供使用的做法不同,这可能是为了与近期推出的竞争对手模型,如Anthropic的Claude 3竞争,后者在多个领域的表现已经达到或超过了GPT-4。GPT-4.5 Turbo:更大的处理范围和最新信息预览文本中提到的“上下文窗口”指的是模型能够一次性处理的数据量,GPT-4.5 Turbo能处理高达256,000个Token,是之前GPT-4 Turbo 128K处理能力的两倍,大约相当于200,000个词。不过,这次泄露的信息中并没有提及到这方面的能力。原创 2024-03-14 00:01:51 · 714 阅读 · 0 评论 -
点一下即可任意调整静态图片:这个开源AI图片项目你需要了解一下
合成满足用户需求的视觉内容通常需要对生成对象的姿势、形状、表情和布局进行灵活而精确的控制。现有的方法通过手动注释的训练数据或先前的3D模型来获得生成对抗网络(GAN)的可控性,这通常缺乏灵活性、精确性和通用性。在这项工作中,我们研究了一种强大但较少探索的控制GAN的方法,即以用户交互的方式“拖动”图像的任何点以精确地到达目标点,如图所示。基于特征的运动监督,它驱动控制柄点向目标位置移动;新的点跟踪方法,它利用判别GAN特征来保持控制柄点的位置。原创 2024-03-12 18:50:55 · 845 阅读 · 0 评论 -
DUSt3R-从任意图像集合中重建3D场景的框架
DUSt3R(Dense and Unconstrained Stereo 3D Reconstruction,密集无约束立体三维重建)是由来自芬兰阿尔托大学和Naver欧洲实验室的研究人员推出的一个3D重建框架,旨在简化从任意图像集合中重建三维场景的过程,而无需事先了解相机校准或视点位置的信息。官方项目主页:https://dust3r.europe.naverlabs.com/c。GitHub代码库:https://github.com/naver/dust3re。DUSt3R的官网入口。原创 2024-03-08 17:49:48 · 1106 阅读 · 0 评论 -
AI生成的图片,真没那么好分辨,一不留神就会被骗
当然,仍然有很多人不相信自己会被AI做出来的图片迷惑,我们来看看,国外的滑铁卢大学所发起了一项研究,名为《眼见为实:对 Deepfakes、人工智能生成的人类和其他非真实媒体现状的调查》。而且,这个研究的过程中,志愿者是可以仔细查看图片的。但是在实际的生活当中,当我们看到一个图片,可能往往是在看资讯刷视频等顺便看到了,并不会那么仔细的去分别,那么就可能会更加不准。根据他们陈述的原因,在寻找AI合成的内容时,会更多的去关注一些细节,比如手指、眼睛、牙齿等等,但是这些评估并没有预期的那么准确。原创 2024-03-07 18:33:06 · 426 阅读 · 0 评论 -
GPT vs Gemini vs Claude 测试大比拼 到底谁是最强王者?
Anthropic发布的通用大语言模型Claude,在各项能力方面号称是全方面超越GPT,实测究竟如何呢?主要是以一些有趣幽默的脑筋急转弯为题目,来看看不同大模型对此的反馈。本次测试均采用各自最牛的大模型版本出战!在一间屋里,有三个杀手,然后来了一个人,把其中一个杀手杀了,问,现在屋里有几个杀手?以上三道题这三个大模型回答的如何,小编就不对结果做评价了,欢迎大家在评论区踊跃讨论!Amy 有 3 个兄弟,每个兄弟有 2 个姐妹,Amy 有几个姐妹?我有 6 个鸡蛋,碎了2个,煎了2个,吃了2个,还剩下几个?原创 2024-03-06 18:57:47 · 391 阅读 · 0 评论 -
AI从截图直接生成代码、前端程序员的福音
如果您希望在不同端口上运行后端,请更新 VITE_WS_BACKEND_URLfrontend/.env.local出于调试目的,如果您不想浪费 GPT4-Vision 积分,您可以在模拟模式下运行后端(该模式会传输预先录制的响应):MOCK=true poetry run uvicorn main:app --reload --port 7001。您现在还可以输入 URL 来克隆实时网站!🆕在这里尝试一下https://screenshottocode.com/(带上您自己的 OpenAI 密钥 -原创 2024-03-05 18:04:33 · 1788 阅读 · 0 评论 -
拦截大语言模型API调用 无需深究文档源码
无论如何,我们现在对其工作机制有了更深的理解,而且避免了让你陷入不必要的复杂性中,这本身就是一种进步。向 OpenAI 发起五个独立的请求(虽然是异步的),可能并不符合你的期望,因为OpenAI API 支持批量请求。对于需要结构化输出的场景——它完全满足了我的需求,并以我手动操作时相同的方式正确使用了 OpenAI API(即通过定义函数模式)。**我将通过使用mitmproxy 的示例,展示如何设置和操作,以便捷地理解我之前提到的工具及其大语言模型的工作原理。谈到大语言模型的框架,我特别推崇这一套。原创 2024-03-04 21:00:33 · 849 阅读 · 0 评论 -
颠覆好莱坞,Sora最强竞对LTX Studio发布,普通人也能手搓电影
当AI填补了技术的沟渠后,实际上比拼的就是创意,AI来辅助呈现你的想法。有人说,AI会砸了影视从业者的饭碗,但不可否认的是,AI也为影视行业的创作者、甚至是普通人带来了更多机会,人人都能是导演,都能拍出独属于自己心中的哈姆雷特。而它生成的画面内容,比如演员、造型、场景,都可以随意剪辑更换。比如,刚才生成影片中男人背后的绿车,我们想让它变成红色的,一秒给你改变。而LTX Studio提供的可视化专业视频控制台,可以帮助用户进一步优化视频的细节达到商业级视频,并且附带语音解读而Sora目前无法提供。原创 2024-03-01 18:42:51 · 483 阅读 · 0 评论 -
阿里又放大招 EMO:一张照片+音频即可生成会说话唱歌的视频
EMO特别强调在视频中生成自然而富有表情的面部动作,能够捕捉到音频中情感的细微差别,并将其反映在人像的表情上,从而生成看起来自然、生动的面部动画。该技术不限于特定语言或音乐风格,能够处理多种语言的音频输入,并且支持多样化的肖像风格,包括历史人物、绘画作品、3D模型和AI生成内容等。EMO能够实现不同演员之间的表现转换,使得一位演员的虚拟形象能够模仿另一位演员或声音的特定表演,拓展了角色描绘的多样性和应用场景。EMO能够处理快节奏的音频,如快速的歌词或说话,确保虚拟人像的动作与音频节奏保持同步。原创 2024-02-29 14:58:59 · 598 阅读 · 0 评论 -
Mistral AI 推出最新Mistral Large模型,性能仅次于GPT 4
在比较了GPT-4、Mistral Large(预训练)、Claude 2、Gemini Pro 1.0、GPT 3.5 和 LLaMA 2 70B 在 MMLU(Measuring Massive Multitask Language Understanding)等测试上的表现后,Mistral Large 展现了其顶级的推理能力。这些测试评估了模型在不同语言环境下的理解和推理能力,Mistral Large 的表现突出,显示了其在处理非英语文本方面的强大能力。在线体验:chat.mistral.ai。原创 2024-02-27 18:39:35 · 759 阅读 · 0 评论 -
AI新纪元:可能的盈利之道
本文来源于Twitter大神宝玉(@dotey)在聊 Sora 的时候,总结了 Sora 的价值和可能的盈利方向,我把这部分内容单独摘出来再整理一下。现在的生成式 AI 大家应该不陌生,用它总结文章、翻译、写作、画图,当然真正能用它赚钱的还是少数,说的最多的还是卖课。AI 的价值说盈利之前,要先看看 AI 所能创造的价值。一、AI 是语言和表达的延伸在乔布斯介绍个人电脑的时候,他说:在 70 年代初的《科学美国人》上有一篇文章,比较了地球上各种物种的运动效率。结果秃鹰是最原创 2024-02-26 18:48:49 · 958 阅读 · 0 评论 -
Stable Diffusion 3震撼发布模型与Sora同架构
这意味着模型能够处理更复杂和多样化的数据类型,如结合文本和图像的输入,从而在理解和生成图像内容方面提供更大的灵活性和精确度。Stable Diffusion 3采用了一种新型的扩散变换技术,与Sora类似,这种新技术为模型提供了更强大的图像生成能力。2、图像质量:Stable Diffusion 3在生成的图像质量上有显著提高,包括更细腻的细节表现、更准确的颜色匹配以及更自然的光影处理。流匹配技术有助于模型更好地理解和模拟图像中的动态元素和结构,使得生成的图像在视觉上更加连贯和自然。原创 2024-02-23 18:45:56 · 691 阅读 · 0 评论 -
Meta要慌了 谷歌发布开源LLM模型Gemma
从今天开始,Gemma将向全球用户提供两种规模版本:2B(20亿参数)和7B(70亿参数),能够支持各种工具和系统,同时能在开发者的笔记本电脑及工作站上顺畅运行。模型地址: https://huggingface.co/modelsother=gemma&sort=trending&search=google博客 :https://blog.google/technology/developers/gemma-open-models/◈ 两种尺寸的模型权重:Gemma 2B和Gemma 7B。原创 2024-02-22 16:38:48 · 413 阅读 · 0 评论 -
Danswer-开源统一搜索,用AI与您的文档聊天
允许您以自然语言提问并根据您团队的特定文档获取答案。如果 ChatGPT 能够访问您团队的独特知识。连接到所有常见的工作场所工具,例如 Slack、Google Drive、Confluence 等。原创 2024-02-20 18:24:58 · 468 阅读 · 0 评论 -
春节放大招,阿里通义千问Qwen1.5开源发布
尽管落后于 GPT-4-Turbo,但最大的 Qwen1.5 模型 Qwen1.5-72B-Chat 在 MT-Bench 和 Alpaca-Eval v2 上都表现出不俗的效果,超过了 Claude-2.1、GPT-3.5-Turbo-0613、Mixtral-8x7b-instruct 和 TULU 2 DPO 70B,与 Mistral Medium 不相上下。Qwen1.5-72B 在所有基准测试中都远远超越了Llama2-70B,展示了其在语言理解、推理和数学方面的卓越能力。原创 2024-02-07 18:23:15 · 750 阅读 · 0 评论 -
超越传统,想修哪里就修哪里,SUPIR如何通过文本提示实现智能图像修复
例如,它可以根据用户提供的描述,调整图像中特定对象的纹理或颜色,或者改变场景的某些元素。这样的处理方式提升了图像修复的质量和智能度,使得模型能够更准确、更灵活地恢复和改进图像。实验还展示了SUPIR在用户交互方面的能力,用户可以通过简单的文本指令控制图像的修复过程,这为图像修复提供了新的互动维度。结合了图像处理和文本处理的技术,允许模型不仅理解图像内容,还能理解与之相关的文本描述,从而进行更准确的修复。采用特殊的采样方法,用于指导图像的恢复过程,以防止过度生成,确保修复后的图像保持真实和高质量。原创 2024-01-26 19:18:19 · 666 阅读 · 0 评论 -
新闻界的AI革命:Newspager GPT 全面解析
虽然说你无法真的用这个Newspaper GPT去开一家报社,但还是可以给我们一些启发,你会发现就现阶段来说,其实单纯的 Prompt Engineering 只能帮助我们与大语言模型之间的交互做到最好,但是要最大化利用好 AI,还是看你将 AI 融入到你自己工作流的能力,借助 AI 将你的工作流做到最大化!Newspager GPT 就是这样一个由多智能体组成的 AI 系统,你只要输入几个你感兴趣的主题,它就能自动帮你生成网页版的报纸,每个新闻还有配图有文字。有没有想过一家报社是如何运作的?原创 2024-01-25 18:46:39 · 703 阅读 · 0 评论