自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(217)
  • 收藏
  • 关注

原创 看完这个视频,发誓再也不当榜一大哥了

该视频使用的软件为DeepFacelive,一个可以在直播过程和视频通话时进行实时换脸的本地工具。DeepFaceLive 建立在 DeepFaceLab 的基础上,后者为当前领先的面部交换框架,能够产生接近电影质量的面部合成效果,提供高保真的视觉体验。

2024-04-26 22:50:43 182

原创 港股“AIGC第一股”出门问问,凭借什么产品做到上市?

在这样的背景下,出门问问(股票代码:2438.HK)作为AIGC领域的先行者,于2024年4月24日正式登陆港交所,成为港股市场上“AIGC第一股”。面向创作者,出门问问提供AIGC(AI Generated Content,人工智能生成内容)产品和服务,包括AI配音工具“魔音工坊”及其海外版DupDub,AI数字人“奇妙元”,以及AI绘画助手言之书和AI写作助手奇妙文等。然而,面对激烈的市场竞争和技术迭代的挑战,出门问问能否持续其在AIGC领域的领先地位,还需要看其未来的技术创新和商业模式的持续探索。

2024-04-25 16:00:25 300

原创 只占 1.8G 内存,iPhone上就可以部署的模型,水平相当于GPT-3.5

微软还初步展示了在训练达4.8万亿 Token 的情况下,使用7B和14B参数的模型(名为 phi-3-small 和 phi-3-medium)所取得的成效,这两个模型的性能均显著优于 phi-3-mini(例如,在 MMLU 测试中分别达到75%和78%,在 MT-bench 测试中分别得分为8.7和8.9)。微软的phi-3-mini 模型太强了。模型下载:https://huggingface.co/microsoft/Phi-3-mini-128k-instruct-onnx。

2024-04-24 18:51:45 310

原创 Llama3-8中文微调完成更好地帮助中文写作、编程和数学

让C表示鸡的数量,R表示兔的数量。所以,我们可以写出以下方程:C+R=10..(1)2C+4R=28..(2)现在,我们可以解出C和R的方程。与原始的 Meta-Llama-3-8B-Instruct 模型相比,此模型显著减少了“中文问题英文回答"和混合中英文回答的问题。因此,二班和三班的剩余梨数量可以通过从总数中减去一个班的数量来计算: 40-20=20个梨 现在,这些剩余的20个梨需要被平均分给二班和三班。要找到二班的份额,可以将剩余数量除以2,因为有两个班:20/2=10个梨,因此,二班有10个梨。

2024-04-23 19:16:37 758

原创 AI检索增强生成引擎-RAGFlow-深度理解知识文档,提取真知灼见

RAGFlow是一款基于深度文档理解构建的开源RAG(Retrieval-Augmented Generation)引擎。RAGFlow个人可以为各种规模的企业及提供一套专业的RAG工作流程,结合针对用户群体的大语言模型(LLM)不同的复杂格式数据提供可靠的问答以及有理有据的引用。

2024-04-22 21:42:56 449 1

原创 Llama 3 王者归来,第一个达到GPT-4级别的开源模型

训练数据集是 Llama 2 的七倍,包含的代码数量也是 Llama 2 的四倍。为了应对即将到来的多语言使用情况,Llama 3 的预训练数据集中有超过 5% 的高质量非英语数据,涵盖 30 多种语言。后期训练程序的改进大大降低了错误拒绝率,提高了对齐度,并增加了模型响应的多样性。Llama 3,包括预训练和指令调优的8B和70B两种参数的模型。详细介绍:https://ai.meta.com/blog/meta-llama-3/模型下载:https://llama.meta.com/llama3/

2024-04-19 16:40:12 162

原创 ​波士顿动力发布全新人形机器人:Atlas

这款机器人的动作灵活,可以执行复杂的任务,如从地面自行站立等特别是在复杂和狭窄的空间中,提高了机器人在实际工作环境中的适用性。4、先进的软件和AI工具:配备了最新的AI和机器学习工具,如强化学习和计算机视觉,确保机器人能够适应并高效处理复杂的实际情况。2、增强的力量和灵活性:电动Atlas具有比以往任何一代更强大的力量和更广泛的运动范围,使其能够执行更复杂的操作和任务。3、实用的工业应用设计:设计目标是应用于真实世界的工业场景,如汽车制造和其他高要求的工业环境,支持复杂的工业操作。

2024-04-18 19:07:29 370

原创 The O-one:开源语言模型计算机的革命

最引人注目的是,The O-one是一个开源项目。它的出现,不仅为用户提供了一种全新的与计算机交流的方式,也为人工智能的发展和应用提供了新的可能性。在人工智能的浪潮中,The O-one作为一个创新的开源项目,正以其独特的功能和开放性吸引着全球开发者和科技爱好者的目光。这种持续学习和自我提升的能力,使得The O-one能够不断适应用户的需求,提供更加个性化和智能化的服务。它能够访问用户的邮件,进行邮件管理,甚至可以自动发送包含指定文件的邮件给特定联系人,减轻了用户在邮件沟通和文件分享方面的负担。

2024-04-17 19:06:00 665

原创 强大的开源知识库问答系统MaxKB:支持快速嵌入到第三方业务系统

密码: MaxKB@123..你也可以通过 1Panel 应用商店 快速部署 MaxKB + Ollama + Llama 2,30 分钟内即可上线基于本地大模型的知识库问答系统,并嵌入到第三方业务系统中。你也可以在线体验:DataEase 小助手,它是基于 MaxKB 搭建的智能问答系统,已经嵌入到 DataEase 产品及在线文档中。MaxKB 是一款基于 LLM 大语言模型的知识库问答系统。基于 LLM 大语言模型的知识库问答系统。开箱即用,支持快速嵌入到第三方业务系统,1Panel 官方出品。

2024-04-16 17:45:33 885

原创 新晋网红AI工具Notion正在挑战GPT市值超100亿美元

他得出的结论是,这些都是无用的。增加更多自动化—加上 1 月推出的日历服务和可能由于 2 月的一次收购而来的电子邮件客户端—赵的野心变得更加明显:要将 Notion 建设成一个办公室的全能应用,将来可能挑战 Microsoft 和 Google 的统治,这两家公司共控制了价值 520 亿美元 (2022 年销售额) 的生产力套件市场的 99%,根据 Gartner 的数据。现在,这家盈利的创业公司的 CEO 看到了一个突破机会,他计划抓住 AI 的先机并大胆进攻,挑战微软和谷歌在职场的主导地位。

2024-04-15 18:35:06 899

原创 重磅,新GPT-4-Turbo重新夺回大模型第一名

上下文长度128k 输出速度更快。GPT-4 Turbo的模型大小为100B参数,这意味着它可以处理更多信息,生成更复杂和细腻的输出,而GPT-4的模型大小为10B参数。GPT-4 Turbo的训练数据包含到2023年4月的信息,而GPT-4的数据截止于2021年9月,后来扩展到2022年1月。GPT-4 Turbo拥有更大的上下文窗口,可以处理高达128K个token,而GPT-4的上下文窗口较小。对于开发者来说,GPT-4 Turbo的使用成本更低,因为它的运行成本对OpenAI来说更低。

2024-04-12 16:00:50 295

原创 谷歌大模型震撼发布,长音频理解能力脱颖而出

性能方面,开发者现在可以通过Gemini API访问到下一代文本嵌入模型text-embedding-004(在Vertex AI中为text-embedding-preview-0409),该模型在MTEB基准测试中展现了卓越的检索性能,超越了所有具有可比维度的现有模型。这使得模型不仅能够理解视频的视觉内容,还能够分析视频中的音频元素,如对话和背景音乐,从而实现对视频内容的全面理解。综合理解视频图像和音频的能力,也使得Gemini 1.5 Pro能够在内容创作领域发挥作用,如自动生成视频字幕和配音。

2024-04-11 19:12:50 354

原创 可在手机上运行的2B LLMs ,看看斯坦福大学的这个项目

在此基础上,通过引入特殊的功能性标记(functional tokens)和进行细致的微调,Octopus v2能够理解和执行软件应用中的函数调用,从而实现了在设备上运行时更高的准确性和更低的延迟。在预训练模型的基础上,通过对模型进行细致的微调来适应具体的函数调用任务这一步骤涉及将功能性标记及其对应的函数描述加入训练数据中,训练模型以理解和映射这些标记到相应的软件操作上。2.优化的延迟:相比传统的基于RAG的功能调用方法,Octopus v2大幅减少了延迟,提高了推理速度,适合实时应用。

2024-04-10 17:53:49 342

原创 Docker仅需3步搭建免费私有化的AI搜索引擎-FreeAskInternet

FreeAskInternet 是一个完全免费、私有且本地运行的搜索聚合器,并使用 LLM 生成答案,无需 GPU。用户可以提出问题,系统将使用searxng进行多引擎搜索,并将搜索结果合并到ChatGPT3.5 LLM中,并根据搜索结果生成答案。用户可以提出问题,系统会进行多引擎搜索,并将搜索结果合并到ChatGPT3.5 LLM中,并根据搜索结果生成答案。需要你的服务器有docker环境。我们可以看到,除了根据搜索内容配合AI总结返回内容外,还可以同时搜索图片,和视频,体验是非常不错的。

2024-04-09 18:27:30 628

原创 OpenAI又更新,自定义AI模型上线

他们的团队修改了模型训练过程的每一个步骤,从领域特定的中间训练到定制后训练过程,并结合专家律师的反馈。今天,他们推出了新功能,以便开发者更好地控制API中的微调,并介绍更多与他们的AI专家团队和研究人员合作构建自定义模型的方法。成功使用完全定制训练模型的组织通常拥有大量专有数据,即数百万个示例或数十亿个令牌,他们希望使用这些数据来教模型新的知识或复杂、独特的行为,以满足高度具体的用例需求。自那时以来,他们与数十个客户会面,评估他们的定制模型需求,并将他们的计划进化到进一步最大化性能的程度。

2024-04-08 19:07:57 609

原创 微软Azure AI语音服务升级,9种AI语音真实到无法分辨

2.高度自然的语音输出:与早期的TTS模型相比,Zero-shotTTS模型生成的语音更加自然、流畅,并且能更好地捕捉到人类语音的细微差别,如语调、节奏和情感表达,使合成语音更加生动、接近真人。6.负责任的AI使用:鉴于合成语音技术可能被误用的风险,微软对Zero-shot TTS模型的使用实施了严格的指导原则和访问控制,确保技术的负责任部署和使用,保护个人和社会的权利。与初始模型相比,这些新模型提高了合成语音的自然度,并更好地模仿了提示语音中的语音特征。1.语音助手:创建个性化的语音助手体验。

2024-04-07 18:21:25 463

原创 法律行业案例法模型出现,OPenAI公布与法律AI公司Harvey合作案例

Harvey的愿景是成为团队的支持成员,随着法律工作量的增长,助理们在复杂但常规的任务上花费了无数小时,我们拥有的机会不仅仅是法律,而是所有专业服务,即处理常规任务,以便专业人士可以将时间集中在客户互动上。结果显示,在97%的情况下,律师们更倾向于选择定制案例法模型的输出。定制模型的输出不仅仅是回答问题,而是提供了长篇、完整的解答,深入到问题的各个细节,并广泛涵盖相关的案例法,这对法律专业人士来说极具价值。,这是因为它提供了更长、更完整的答案,更深入地探讨了问题的细节,并涵盖了更多相关的案例法。

2024-04-03 18:28:44 336

原创 《吴恩达:AI 智能体工作流引领人工智能新趋势》

你只需要告诉 LLM,你现在是 CEO,你现在是软件工程师,然后它们就会开始协作,进行深入的对话。一方面人类会慢慢适应和智能体协作解决任务的新模式,很多任务不再像搜索引擎那样,你输入问题马上得到结果,而是异步的,你给 AI 提供一个任务,然后 AI 会去完成,完成后再通知你,类似于老板和员工的关系。规划是指让 AI 自己去规划解决问题的路径,去对复杂的任务进行拆解成简单的问题,比如说像以前很火的 AutoGPT,就是针对用户的任务,去规划,去调用外部工具完成任务。

2024-04-02 14:22:38 487

原创 苹果推出Swift开发教程 无需编码知识小白也能学

4、布局和样式: 为 iOS 应用构建两个引导屏幕,学习将视图放置在屏幕上所需的工具,并检查它们的大小。2、探索Xcode: 通过创建一个消息应用原型来了解 Xcode 和 SwiftUI,学习 Swift 语法以及如何使用源代码编辑器和预览。6、列表和文本字段: 创建一个动态界面,将一组项目存储在数组中,并使用列表显示它们。5、按钮和状态: 探索在应用中添加按钮,了解 Swift 闭包及其与按钮的关系。3、视图、结构和属性: 学习如何构建自定义视图以创建多日天气预报,并使用属性自定义每天的显示。

2024-04-01 18:20:55 200

原创 科普:从神经网络到 Hugging Face——神经网络和深度学习简史

活中没有什么可怕的东西,只有需要理解的东西。—— 居里夫人深度信念网络2006年,加拿大多伦多大学教授杰弗里·辛顿在研究如何训练多层神经网络,他已经在神经网络领域默默耕耘了三十多年,尽管在这个领域他算得上是泰斗级的人物,但由于神经网络在人工智能行业一直不被看好,所以他的研究成果一直不为业界所重视。辛顿出生于英国伦敦,他的家族出过不少知名学者,创立布尔代数的逻辑学家乔治·布尔便是他的曾曾祖父。他的祖父是位科普作家,父亲是昆虫学家。辛顿比周围的人都要聪明,但他的求学之路却颇为曲折,先是在大学攻读建筑学,转而又选

2024-03-29 16:27:12 1105

原创 Sora那么牛,他的模型的成本会有多少呢?

初期的Sora成本将非常高,肯定是不适合普通人来使用,所以目前OpenAI都是先找一些艺术和电影工作室或者公司合作。推理成本:一个Nvidia H100 GPU大约每小时能生成5分钟的视频。

2024-03-27 18:41:24 213

原创 影视作品一键转成动漫,自媒体作者用DomoAI赢麻了

前言众所周知,在自媒体爆火的那段时间,影视号是最容易起量的,借助高质量的影视,进行剪辑,解说,等二次创作,最终制作成高质量的作品,但是随着自媒体的发展,影视号越来越多,作品数量越来越多,制作成本也就日益增多。那么如何快速制作出来优质的有趣的影视自媒体作品,就成了一个难题。但是随着AI的发展,或许这个问题慢慢有了解决的思路。新玩法。

2024-03-26 19:19:53 272

原创 牛,The O-one ——通过语音交互控制电脑的开源语言模型

The O-one :一个创新的开源语言模型计算机 可以让你通过语音交互来和你的计算机进行对话,完成询问、指令下达等任务。4、学习新技能:通过用户指导,O1可以学会新的操作技能,如发送Slack消息等。最牛皮的是,O-one是开源的,他们公布了代码、CAD图纸、以及其他信息,你完全可以自己做一个。2、日程和活动管理:可以远程访问你的电脑设备查询天气、查看日程、添加活动至日历,并自动发送活动相关信息。3、邮件与文件处理:能够访问你的邮件,管理邮件,例如自动发送包含指定文件的邮件给特定联系人。

2024-03-22 18:42:50 683

原创 国产之光?Kimichat大模型200万字超长上下文突破

在今年2月初,又获得了一笔10亿美元的A轮融资,融资方有大家熟知的阿里巴巴、红杉中国、小红书、美团等资本,现今估值超25亿美元。:支持对多种文件格式的解读,包括PDF、Word文档、Excel电子表格、PPT幻灯片、文本文件和图片等,最多支持50个文件,每个文件大小可达100MB。:Kimi Chat可以作为一个智能搜索引擎,帮助用户快速找到所需的信息,并提供相关文章的简要概括。:用户可以提供网页链接,Kimi Chat能够解析链接中的内容,并根据用户的问题提供详细的解读。

2024-03-22 18:33:28 285

原创 效果炸裂 StreamMultiDiffusion:使用区域文本提示实时生成图像

操作示例:用户首先上传需要修复的旧照片,然后在破损的区域输入“修复”作为提示,在希望添加花朵的区域输入“五彩缤纷的花朵”。- 操作示例:设计师在海报模板的相应区域内输入文本提示:“夜空中的烟花”、“音乐符号”和“跳舞的人群”。引入了一种新的绘画范式,用户不仅可以绘制颜色,还可以绘制具有特定语义的内容,例如“蓝天”、“绿草”等,从而在创作过程中加入更丰富的意义层次。用户可以实时与系统交互,根据自定义的文本提示在特定区域生成图像,这个过程是动态且即时的,为用户提供了高度互动的体验。

2024-03-21 15:34:20 379

原创 吐血总结 2024 年排名前 7 位的生成式 AI 服务和供应商

训练生成式人工智能模型是一个具有挑战性的过程,需要专业技能,因为它涉及:·理解复杂的算法·优化神经网络架构·处理大型数据集·微调模型以生成高质量的输出,同时避免过度拟合或模式崩溃等陷阱。在这里,我们探讨了 7 种类型的生成式人工智能服务,这些服务有助于增强企业对生成式人工智能技术的使用,从而获得竞争优势。人工智能基础模型是任何生成式人工智能系统的支柱。亚马逊的 SageMaker 是一项完全托管的服务,为开发人员和数据科学家提供构建、训练和部署机器学习模型(包括生成式 AI 模型)的能力。

2024-03-20 23:14:05 538

原创 Sora没体验资格?开源项目:Open-Sora,复现类Sora视频生成方案

项目简介Open-Sora项目是一项高效制作高质量视频的工作,明确所有权使用其模型、工具和内容的计划。通过采用开源原则,Open-Sora 不仅实现了先进的视频生成技术的普及,还提供了一个专业且用户界面的方案,简化了视频制作的复杂性。通过 Open-Sora,我们希望更多的开发者一起探索内容创作领域的创新、创造和遏制。项目展示。

2024-03-19 18:27:35 1290

原创 MindGraph:文字生成知识图

进一步的集成,包括add_multiple_conditional、conditional_entity_addition和conditional_relationship_addition,协同工作,以确保应用程序数据模型的完整性和增强。模式确保由AI生成的知识图不仅与应用程序的数据模型一致,而且丰富详细,捕捉输入文本中描述的实体之间的微妙关系。欢迎来到MindGraph,这是一个概念验证、开源的、以API为先的基于图形的项目,旨在通过自然语言的交互(输入和输出)来构建和定制CRM解决方案。

2024-03-18 22:06:50 898

原创 GPT-4.5 Turbo:意外曝光且可能在六月份推出

这与OpenAI以往发布新模型后立即提供使用的做法不同,这可能是为了与近期推出的竞争对手模型,如Anthropic的Claude 3竞争,后者在多个领域的表现已经达到或超过了GPT-4。GPT-4.5 Turbo:更大的处理范围和最新信息预览文本中提到的“上下文窗口”指的是模型能够一次性处理的数据量,GPT-4.5 Turbo能处理高达256,000个Token,是之前GPT-4 Turbo 128K处理能力的两倍,大约相当于200,000个词。不过,这次泄露的信息中并没有提及到这方面的能力。

2024-03-14 00:01:51 698

原创 点一下即可任意调整静态图片:这个开源AI图片项目你需要了解一下

合成满足用户需求的视觉内容通常需要对生成对象的姿势、形状、表情和布局进行灵活而精确的控制。现有的方法通过手动注释的训练数据或先前的3D模型来获得生成对抗网络(GAN)的可控性,这通常缺乏灵活性、精确性和通用性。在这项工作中,我们研究了一种强大但较少探索的控制GAN的方法,即以用户交互的方式“拖动”图像的任何点以精确地到达目标点,如图所示。基于特征的运动监督,它驱动控制柄点向目标位置移动;新的点跟踪方法,它利用判别GAN特征来保持控制柄点的位置。

2024-03-12 18:50:55 837

原创 DUSt3R-从任意图像集合中重建3D场景的框架

DUSt3R(Dense and Unconstrained Stereo 3D Reconstruction,密集无约束立体三维重建)是由来自芬兰阿尔托大学和Naver欧洲实验室的研究人员推出的一个3D重建框架,旨在简化从任意图像集合中重建三维场景的过程,而无需事先了解相机校准或视点位置的信息。官方项目主页:https://dust3r.europe.naverlabs.com/c。GitHub代码库:https://github.com/naver/dust3re。DUSt3R的官网入口。

2024-03-08 17:49:48 1040

原创 AI生成的图片,真没那么好分辨,一不留神就会被骗

当然,仍然有很多人不相信自己会被AI做出来的图片迷惑,我们来看看,国外的滑铁卢大学所发起了一项研究,名为《眼见为实:对 Deepfakes、人工智能生成的人类和其他非真实媒体现状的调查》。而且,这个研究的过程中,志愿者是可以仔细查看图片的。但是在实际的生活当中,当我们看到一个图片,可能往往是在看资讯刷视频等顺便看到了,并不会那么仔细的去分别,那么就可能会更加不准。根据他们陈述的原因,在寻找AI合成的内容时,会更多的去关注一些细节,比如手指、眼睛、牙齿等等,但是这些评估并没有预期的那么准确。

2024-03-07 18:33:06 414

原创 GPT vs Gemini vs Claude 测试大比拼 到底谁是最强王者?

Anthropic发布的通用大语言模型Claude,在各项能力方面号称是全方面超越GPT,实测究竟如何呢?主要是以一些有趣幽默的脑筋急转弯为题目,来看看不同大模型对此的反馈。本次测试均采用各自最牛的大模型版本出战!在一间屋里,有三个杀手,然后来了一个人,把其中一个杀手杀了,问,现在屋里有几个杀手?以上三道题这三个大模型回答的如何,小编就不对结果做评价了,欢迎大家在评论区踊跃讨论!Amy 有 3 个兄弟,每个兄弟有 2 个姐妹,Amy 有几个姐妹?我有 6 个鸡蛋,碎了2个,煎了2个,吃了2个,还剩下几个?

2024-03-06 18:57:47 378

原创 AI从截图直接生成代码、前端程序员的福音

如果您希望在不同端口上运行后端,请更新 VITE_WS_BACKEND_URLfrontend/.env.local出于调试目的,如果您不想浪费 GPT4-Vision 积分,您可以在模拟模式下运行后端(该模式会传输预先录制的响应):MOCK=true poetry run uvicorn main:app --reload --port 7001。您现在还可以输入 URL 来克隆实时网站!🆕在这里尝试一下https://screenshottocode.com/(带上您自己的 OpenAI 密钥 -

2024-03-05 18:04:33 1412

原创 拦截大语言模型API调用 无需深究文档源码

无论如何,我们现在对其工作机制有了更深的理解,而且避免了让你陷入不必要的复杂性中,这本身就是一种进步。向 OpenAI 发起五个独立的请求(虽然是异步的),可能并不符合你的期望,因为OpenAI API 支持批量请求。对于需要结构化输出的场景——它完全满足了我的需求,并以我手动操作时相同的方式正确使用了 OpenAI API(即通过定义函数模式)。**我将通过使用mitmproxy 的示例,展示如何设置和操作,以便捷地理解我之前提到的工具及其大语言模型的工作原理。谈到大语言模型的框架,我特别推崇这一套。

2024-03-04 21:00:33 826

原创 颠覆好莱坞,Sora最强竞对LTX Studio发布,普通人也能手搓电影

当AI填补了技术的沟渠后,实际上比拼的就是创意,AI来辅助呈现你的想法。有人说,AI会砸了影视从业者的饭碗,但不可否认的是,AI也为影视行业的创作者、甚至是普通人带来了更多机会,人人都能是导演,都能拍出独属于自己心中的哈姆雷特。而它生成的画面内容,比如演员、造型、场景,都可以随意剪辑更换。比如,刚才生成影片中男人背后的绿车,我们想让它变成红色的,一秒给你改变。而LTX Studio提供的可视化专业视频控制台,可以帮助用户进一步优化视频的细节达到商业级视频,并且附带语音解读而Sora目前无法提供。

2024-03-01 18:42:51 470

原创 阿里又放大招 EMO:一张照片+音频即可生成会说话唱歌的视频

EMO特别强调在视频中生成自然而富有表情的面部动作,能够捕捉到音频中情感的细微差别,并将其反映在人像的表情上,从而生成看起来自然、生动的面部动画。该技术不限于特定语言或音乐风格,能够处理多种语言的音频输入,并且支持多样化的肖像风格,包括历史人物、绘画作品、3D模型和AI生成内容等。EMO能够实现不同演员之间的表现转换,使得一位演员的虚拟形象能够模仿另一位演员或声音的特定表演,拓展了角色描绘的多样性和应用场景。EMO能够处理快节奏的音频,如快速的歌词或说话,确保虚拟人像的动作与音频节奏保持同步。

2024-02-29 14:58:59 562

原创 能在手机上运行,仅仅0.5B大小的小语言模型MobiLlama

5、全透明:MobiLlama项目开源,提供了模型的训练数据、代码和训练过程的详细信息,使其他研究者和开发者可以完全了解模型的工作原理,有助于促进技术的进步和应用的开发。0.5B:这个版本的模型有0.5亿参数,是设计中最轻量级的一个,旨在提供较高的效率和速度,同时保持良好的性能,特别适合在资源受限的设备上使用。0.8B:0.8亿参数的模型在0.5B的基础上增加了参数,以改进模型的性能和理解能力,适合于需要更复杂处理能力的场景。MobiLlama的性能优于这些模型,展现了其作为小型语言模型的竞争力和潜力。

2024-02-28 18:33:08 1214

原创 Mistral AI 推出最新Mistral Large模型,性能仅次于GPT 4

在比较了GPT-4、Mistral Large(预训练)、Claude 2、Gemini Pro 1.0、GPT 3.5 和 LLaMA 2 70B 在 MMLU(Measuring Massive Multitask Language Understanding)等测试上的表现后,Mistral Large 展现了其顶级的推理能力。这些测试评估了模型在不同语言环境下的理解和推理能力,Mistral Large 的表现突出,显示了其在处理非英语文本方面的强大能力。在线体验:chat.mistral.ai。

2024-02-27 18:39:35 729

原创 AI新纪元:可能的盈利之道

本文来源于Twitter大神宝玉(@dotey)在聊 Sora 的时候,总结了 Sora 的价值和可能的盈利方向,我把这部分内容单独摘出来再整理一下。现在的生成式 AI 大家应该不陌生,用它总结文章、翻译、写作、画图,当然真正能用它赚钱的还是少数,说的最多的还是卖课。AI 的价值说盈利之前,要先看看 AI 所能创造的价值。一、AI 是语言和表达的延伸在乔布斯介绍个人电脑的时候,他说:在 70 年代初的《科学美国人》上有一篇文章,比较了地球上各种物种的运动效率。结果秃鹰是最

2024-02-26 18:48:49 951

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除