- 博客(140)
- 收藏
- 关注
原创 支付宝开放平台-开发者社区——AI 日报「3 月 13 日」
2024 年,行业人士认为,像 Monica.im 这样带有记忆功能的 AI 助手,会面临来自比如豆包这样的强劲对手的压力,做起来并不会像 2023 年那样容易。Open-Sora 2.0——全新开源的SOTA(State-of-the-Art)视频生成模型正式发布,仅用20万美元(224张GPU)成功训练出商业级11B参数视频生成大模型,性能直追HunyuanVideo和30B参数的Step-Video。在多项关键指标上,它与动辄百万美元训练成本的模型分庭抗礼,全面提升视频生成的可及性与可拓展性。
2025-03-13 14:29:51
721
原创 支付宝开放平台-开发者社区——AI 日报「3 月 12 日」
从2023年的“技术验证年(POC)”,到2024年的“规模生产年”,当企业级客户的需求从追逐单一模型的“极致性能”转向寻求性能、成本、安全与场景适配性的平衡,头部云厂商的战略分野已然清晰——亚马逊云科技于昨天凌晨在Amazon Bedrock平台推出全托管、无服务器的DeepSeek-R1模型,是首个提供DeepSeek-R1作为全托管、正式商用模型的海外云厂商,同时DeepSeek是首个登陆Amazon Bedrock的国产大模型。又开卷了,哦是开源,R1-Omni来了。
2025-03-12 14:37:20
829
原创 支付宝开放平台-开发者社区——AI 日报「3 月 11 日」
现在,随着狸谱持续出圈,这款产品正在突破人们对AI工具的固有认知——它从诞生之初就不是单纯的生图工具,而是一个以“抽象共创”为核心的赛博漫展,用户、角色、作品在这里可以深度互动。2023年5月,高通发布了《混合AI是AI的未来》白皮书,其中提到:AI处理必须分布在云端和终端进行,才能实现AI的规模化扩展并发挥其最大潜能。而在DeepSeek之外,值得关注的是,大部分接入的终端产品都是“高通芯”。围绕这3点,再回溯高通这两年以来的技术布局,不难看出,高通在终端AI领域,再次引领了时代之先。
2025-03-11 14:26:27
706
原创 支付宝开放平台-开发者社区——AI 日报「3 月 10 日」
不同于传统的工程技术层面的解释方法,张教授提出了「等效与或交互」解释性理论,用严谨的数学符号化方式证明神经网络的内在表征逻辑,为理解泛化性、鲁棒性和过拟合提供了新的视角。Manus这个产品也成功火到了国外,海外用户得到码之后的剧情和这边差不多,有不少试用之后被惊艳到的,变成“自来水”的。他所倡导的AI治理方式,意味着AI输出的答案取代人类判断,而这些答案往往缺乏充分讨论或监督的合理性。他领衔的DOGE正打造一款AI神器GSAi,要提升政府内部12000名员工的效率,甚至还要开发一款AI编码智能体。
2025-03-10 14:51:40
946
原创 支付宝开放平台-开发者社区——AI 日报「3 月 7 日」
不仅如此,TRON 1已经完成了全球多个国家和地区的产品交付,初步实现了产品的设计、研发、量产和销售的商业化闭环。随后,同年12月,逐际动力又曝光了全尺寸人形机器人的测试,展现了整机工程化升级,实现全身多关节协同大范围运动。这个模型最大的特点,是它仅用320亿参数,就和目前公认的开源最强6710亿参数的满血版DeepSeek-R1媲美。无论是最近引爆全球 AI 技术爆发的 DeepSeek-R1,还是ChatGPT,以及首次下围棋赢了人类的人工智能的AlphaGo,都是强化学习的"杰作"。
2025-03-07 14:46:47
561
原创 支付宝开放平台-开发者社区——AI 日报「3 月 6 日」
UCLA等机构的研究者发现,虽然目前已经涌现出许多试图复现DeepSeek-R1的研究,然而这些研究大多遭遇了这个难点:很难复现出R1所表现出的回答长度增加和思考模式。没有任何SFT的情况下,模型就在CVBench上达到了59.47%的准确率,比基础模型高出约30%,比经过SFT的模型高出约2%。甚至,这个模型大幅超越了指令微调模型,而后者的训练数据明显更多。产品上线后 4 个月,月活跃用户数便突破了百万大关,2025 年 2 月,AiPPT.com 的全球单月访问量逼近 1400 万,全球排名第 2。
2025-03-06 14:14:09
614
原创 支付宝开放平台-开发者社区——AI 日报「3 月 5 日」
就在前不久,这一套借力引流的组合拳下来,原本在App Store免费应用榜的200名开外的元宝,现在却挤掉豆包,来到了榜单第一的位置。而且出击的对象瞄准了字节。不用依赖昂贵的英伟达卡,星火X1用更小的规模、更少的算力,就能对标671B满血版R1和o1,充分证明了算法创新在国产算力上的巨大潜力。在自主可控的前提下,科大讯飞再下一城,这是中国AI的硬核自信。3 月 3 日,官宣了一轮 35 亿美元的 E 轮融资,本轮融资后 Anthropic 的估值达到了 651 亿美元,可以说,产品力和商业上都有了新成绩。
2025-03-05 14:44:47
999
原创 支付宝开放平台-开发者社区——AI 日报「3 月 4 日」
支付宝/钉钉扫码加入支付宝开发者钉组织,可了解支付宝开放能力最新动态,订阅文档更新消息,和同城同行业交流业务,与支付宝产研沟通交流。
2025-03-04 14:42:52
771
原创 支付宝开放平台-开发者社区——AI 日报「2 月 28 日」
RISC-V 备受关注,一方面是因为其作为新兴的指令集架构,有别于 x86、arm 的封闭或付费授权,坚持走开源开放的路线,其开源精神与 AI 天然契合。而且,幻觉率大幅降低。由于 DeepSeek 技术的普及,AI 芯片的形态即将重构,从原本依赖云计算的大规模并行计算,到今天可以在边缘设备上独立运行的低功耗芯片,AI 芯片正在走向多样化和高效化。因为凭借极致的深度优化,DeepSeek 大幅降低了大模型的训练和推理成本,算力、内存、互联原有平衡发生剧变,为算力架构的创新带来了重大的机会。
2025-02-28 16:44:50
929
原创 支付宝开放平台-开发者社区——AI 日报「2 月 27 日」
一家名为Zep AI的初创公司推出了为智能体打造的记忆层,通过回忆聊天历史,可以自动生成摘要和其他相关信息,使AI助手能够在不影响用户聊天体验的情况下,异步地从过去的对话中提取相关上下文。具体来看,Zep可视为AI智能体的基本内存,由具有时间感知能力的知识图谱引擎Graphiti所驱动,可以摄入并综合结构化业务数据和非结构化的消息数据,并动态更新知识图,从而表征一个复杂、不断发展的世界。但是,一旦超出上下文窗口的限制,大模型就需要重新开一个对话,如同「失忆」一般忘记之前交流的内容。
2025-02-27 14:10:42
614
原创 支付宝开放平台-开发者社区——AI 日报「2 月 26 日」
为了解决这一问题,蚂蚁团队提出了一种基于大语言模型的多词元并行预测方法K-ON,其利用多词元并行预测机制能够一次生成对所有实体的评估结果,进而实现语言模型实体层级的对比学习。正是因为前几天阿里炸裂的财报,还有AGI的决心,让全球的投资者都认识到,中国的宏观、行业、企业在节点上,都已经完成了对齐。凌晨2点半,Claude发3.7 Sonnet,凌晨5点半,阿里发了推理模型QwQ-Max的预览版,早上10点DeepSeek开源了一个DeepEP代码库,然后晚上10点20,阿里的视频模型万相2.1,也来了。
2025-02-26 14:36:57
773
原创 支付宝开放平台-开发者社区——AI 日报「2 月 25 日」
这是一款用于 Hopper GPU 的高效型 MLA 解码核,仅用了 24 小时就达到了接近 8k 的 star 量(详情请参见《刚刚,DeepSeek 开源 FlashMLA,推理加速核心技术,Star 量飞涨中》)。这是Claude系列中,迄今为止最智能的模型,几乎能够及时响应,并进行可扩展的、逐步的思考。在生成完视频之后,点击菜单栏中的“重绘”,就会弹出各种各样的风格,包括:梵高风、巴洛克风、黏土风、赛博朋克风、浮世绘风、折纸风、羊毛毡风、吉卜力漫画风、辛普森风,以及芭比风,共计10种可选。
2025-02-25 14:25:19
948
原创 支付宝开放平台-开发者社区——AI 日报「2 月 24 日」
同样是自动的方式,它可以帮你发现数据中隐藏的规律,识别时间数据的趋势,找出异常值和波动,预测未来的走势,还能分析不同数据之间的关系。例如让 AI 角色产生内心 OS,让 AI 角色有自己的,定期更新的状态等等,这些细微之处都依赖大模型,但并不依赖模型最强的能力,它们成本极低,但让用户可以以前所未有的方式感受到 AI 的存在,当然这些创新很快被许多友商借鉴,但就如同哄哄模拟器当初那样,既然始终无法避免,而最终又能对行业有所启发,我觉得也不算太坏。可以说,这次大会是名副其实的「社区的社区」。
2025-02-24 14:11:42
583
原创 支付宝开放平台-开发者社区——AI 日报「2 月 21 日」
值得一提的是,对于那些热门话题,Deep Research 反而常常给出质量比较差的结果,因为相关内容中鱼龙混杂,“水分”很多。Deep Research 极大的降低了信息整合的成本,以前要专门人去整理的工作,现在借助 Deep Research 十分钟左右就可以完成,但是它也很依赖于公开的信息,而且热门话题往往噪音多、信噪比差;但正如互联网时代“透明”与“污染”并存,给了我们通过独立品牌或媒介建立个人信誉与影响力的机会一样,AI 时代也会在加剧“信息泛滥”的同时,为我们带来新的解决思路和商业模式。
2025-02-21 14:50:53
891
原创 支付宝开放平台-开发者社区——AI 日报「2 月 20 日」
清华大学电子系城市科学与计算中心研究团队,联合清华大学智能社会治理研究院、公共管理学院、社会科学学院等跨学科团队深度协作,充分发挥大模型智能体、真实社会环境仿真与大规模模拟加速框架的技术优势,结合智能社会治理的前沿理论与实践探索,成功构建了基于大模型的 “大型社会模拟器 AgentSociety” 1.0 版本,可精确模拟社会舆论传播、认知观点极化、公众政策响应等。7)提供灵活的并行策略配置接口,包括数据并行、模型并行、专家并行、ZeRO和Offload等,以适应不同硬件规模。它会让你变得更强大、更自信。
2025-02-20 14:33:57
617
原创 支付宝开放平台-开发者社区——AI 日报「2 月 19 日」
在多项基准测试中,Grok-3在数学(AIME 2024)、科学问答(GPQA)、编码(LCB)上刷新SOTA,大幅超越DeepSeek-V3、Gemini-2 Pro、GPT-4o。紧接着,中国头部的公有云平台,腾讯云、阿里云、百度云、火山引擎,同样赶在春节期间上线 DeepSeek 模型的 API 服务,甚至拿出更低的价格。第三,针对DiT模型的超参设置、模型结构和训练效率,Step-Video-T2V了进行深入的系统优化,确保训练过程的高效性和稳定性。晚点LatePost|
2025-02-19 14:22:59
615
原创 支付宝开放平台-开发者社区——AI 日报「2 月 18 日」
近日,他发文表示,「随着更多工作变得AI化,我认为这将会改变,将会有更多10倍专业人士。立足当下,如果你能成为那个善于利用工具、形成独到见解的人,就有可能在这场AI潮流中把握更多主动权,迎来指数级的成长。因此,在第一阶段,EMO2 基于音频仅生成手部动作,然后将动作表征作为第二阶段视频生成中的控制信号使用。AI 技术发展已经实现了通过音频驱动人物面部表情的能力,但在虚拟主播、数字人交互等新兴领域,如何让 AI 通过音频自动生成自然流畅的动作肢体语言和表情,始终是业界关注的技术焦点。
2025-02-18 14:43:44
549
原创 支付宝开放平台-开发者社区——AI 日报「2 月 14 日」
在 AI coding 领域的创业公司中,Codeium 拥有最鲜明地针对企业需求的价值主张,在企业安全、合规和个性化等关键维度上建立了差异化优势,并在短短两年内构建起相对完整的产品矩阵,覆盖了广泛的 IDE 插件和 IDE 产品,Windsurf 也在 Copilot 和 Agent 之间找到了独特定位,开创了新颖的开发范式。其次,企业级市场的拓展正在加速,越来越多非技术用户开始搭建仅仅部署在公司内网的效率工具,这意味着网站生成平台有机会为企业提供更多企业级的定制化功能,并与低代码工具市场形成互补。
2025-02-14 18:31:05
1002
原创 支付宝开放平台-开发者社区——AI 日报「2 月 10 日」
中长期看,GPU 资源充裕的公司还是受益的,一方面是第二梯队的 Meta 可以快速跟进新方法,Capex 更加 efficient,Meta 可能是很大受益者,另一方面是智能提升还需要更多探索,DeepSeek 开源把大家水平拉齐,进入全新探索又需要 10 倍甚至更大量级的 GPU 投入。从 24Q3 开始我们就一直在讲 AI 的下半场,虽然 OpenAI o1 提出了 RL 叙事,但因为各种原因没有破圈,DeepSeek R1 解了 RL 的谜题,推进整个行业进入了新范式,真正进入智能下半场。
2025-02-10 12:08:07
750
原创 支付宝开放平台-开发者社区——AI 日报「2 月 8 日」
基于此现状,Center for AI Safety(AI 安全中心)与 Scale AI 联合打造一个名字相当吸引眼球的新基准:Humanity's Last Exam,即「人类的最后考试」,简称 HLE。如果模型能在 HLE 上取得高准确度表现,则说明其在封闭式、可验证的问题和前沿的科学知识上具备了专家级的表现,但仅靠这个基准,并不能表明模型已经具备自主研究能力或者已经是所谓的「通用人工智能」。就在今天,纳德拉官宣,GitHub Copilot将all-in智能体,微软自主的SWE智能体首次亮相。
2025-02-08 15:06:09
490
原创 支付宝开放平台-开发者社区——AI 日报「2 月 7 日」
从 DeepSeek 让训练成本大幅降低的 MLA 模式,R1 和 o1 等模型的性能对比,人均年薪千万的顶尖人才,还指出目前 DeepSeek 的成本估算是错误的,推测其拥有大约 5 万块Hopper GPU……上周的 CES 2025,黄仁勋有提到,在英伟达看来,Scaling Laws 仍在继续,所有新 RTX 显卡都在遵循三个新的扩展维度:预训练、后训练和测试时间(推理),提供了更佳的实时视觉效果。春节没过完,就已迅速适配多个国产芯片,并在各大云平台上线,好生热闹~
2025-02-07 14:04:19
638
原创 支付宝开放平台-开发者社区——AI 日报「2 月 6 日」
就像在CES上意外爆火的AI陪伴玩具,以及这个春节收到关注的“元宝红包封面助手”,它们的共同点都是通过低门槛、贴地气的使用场景,不需要改变人类习惯,不需要教育用户认知。Tülu 3 405B在许多标准的基准测试中均实现了与Deepseek v3和GPT-4o相当或更优的性能,而且也超越了许多先前发布的后训练开源模型(同等参数规模),包括Llama 3.1 405B Instruct和Nous Hermes 3 405B。过年拜年那会儿,这个功能的确蛮实用,没什么门槛,从没接触过AI的长辈也能玩得来。
2025-02-06 15:08:39
902
原创 支付宝开放平台-开发者社区——AI 日报「1 月 23 日」
对于人类和 AI 技术安全的关系,李飞飞认为首先要考虑的是,我们应该基于科学,而不是科幻。抢在OpenAI发布Operator之前,清华、复旦和斯坦福的研究者联合提出了名为Eko的 Agent开发框架,开发者可以通过简洁的代码和自然语言,快速构建可用于生产的「虚拟员工」。OpenAI的首席执行官Sam Altman最近宣布,2025年将推出「虚拟员工计划」,代号Operator,AI智能体能够自主执行任务,如写代码、预订旅行等,成为企业中的「数字同事」。,语言是人类的语言,而 3D 是自然的语言。
2025-01-23 10:11:27
793
原创 支付宝开放平台-开发者社区——AI 日报「1 月 23 日」
对于人类和 AI 技术安全的关系,李飞飞认为首先要考虑的是,我们应该基于科学,而不是科幻。抢在OpenAI发布Operator之前,清华、复旦和斯坦福的研究者联合提出了名为Eko的 Agent开发框架,开发者可以通过简洁的代码和自然语言,快速构建可用于生产的「虚拟员工」。OpenAI的首席执行官Sam Altman最近宣布,2025年将推出「虚拟员工计划」,代号Operator,AI智能体能够自主执行任务,如写代码、预订旅行等,成为企业中的「数字同事」。,语言是人类的语言,而 3D 是自然的语言。
2025-01-23 10:09:37
996
原创 支付宝开放平台-开发者社区——AI 日报「1 月 17 日」
目前 AI 领域最热门的竞技场当属 LMSYS Org 的 Chatbot Arena,其玩法也很简单:评估者与两个匿名模型互动,然后盲评这两个模型给出的响应。纵观当今的游戏行业,《逆水寒》在「AI+游戏」之路上是走得最激进的游戏,甚至可能没有之一。除了 AI NPC,在网易伏羲 AI 技术加持下,《逆水寒》中还整合了其它许多 AI 能力,包括 AI 副本队友、AI 捏脸染色、AI 自定义语音、AI 大宋头条、AI 作诗作画、AI 离线玩家、AI 剧组模式、AI 翻拍等等。豆包Kimi通义现身搅动江湖。
2025-01-17 14:27:59
630
原创 支付宝开放平台-开发者社区——AI 日报「1 月 15 日」
新模型的最大亮点是,在业内首次大规模实现了新的线性注意力机制,这使得输入的上下文窗口大大变长:一次可处理 400 万 token,是其他模型的 20-32 倍。一个模型,就实现了多模态的融合。2025 新年伊始,在很多趋势都还不明朗的情况下,几位 AI 业界的重要人物几乎在同一时间做出了类似的判断 ——2025 年将是 AI Agent 之年。的Agent开发框架,开发者只需用简洁的代码和自然语言,就能快速构建可用于生产的“虚拟员工”:Agent可以接管用户的电脑和浏览器,代替人类完成各种任务。
2025-01-15 15:08:37
625
原创 支付宝开放平台-开发者社区——AI 日报「1 月 13 日」
Devin 与主流 AI 代码补完工具最大的不同是,它理论上可以无需人类参与自行编写代码,并完成通常分配给人类开发人员的整个项目。有趣的是,团队表示:「Sky-T1-32B-Preview 的训练成本不到 450 美元,这表明可以经济、高效地复制高级推理能力。重点是,Sky-T1 似乎是第一个真正开源的推理模型,因为团队发布了训练数据集以及必要的训练代码,任何人都可以从头开始复制。测试中,可以利用互联网的博士在其专业领域内的得分为81%,而在领域之外则跌到了34%。
2025-01-13 14:46:32
963
原创 支付宝开放平台-开发者社区——AI 日报「1 月 9 日」
在多项测评上,DeepSeek V3 达到了开源 SOTA,超越 Llama 3.1 405B,能和 GPT-4o、Claude 3.5 Sonnet 等 TOP 模型正面掰掰手腕——而其价格比 Claude 3.5 Haiku 还便宜,仅为 Claude 3.5 Sonnet 的 9%。放弃「既要又要」路线,至今专注在研究和技术,未做 toC 应用的公司,也是唯一一家未全面考虑商业化,坚定选择开源路线甚至都没融过资的公司。谷歌AI智能体报告中,一张图表清晰列出了AI在知识扩展、任务处理等方面的强项。
2025-01-09 11:27:39
704
原创 支付宝开放平台-开发者社区——AI 日报「1 月 8 日」
不过,在奥特曼心里,OpenAI的最终目标——构建AGI和ASI才是最重要的。深谋的创始团队有非常资深的国际化运营经验,已开发三款商业化产品,正批量交付国内及韩国市场,包括一款无感监测传感终端,一款陪伴机器人和一款轮式机器人,着力点均在与“银发经济”有关的大健康行业。高科技领域的初创企业往往一开始就确定了某种技术方向或产品类型,有一家初创公司偏偏反其道而行,宣称同时专注于先进控制、传感与通用智能三大类关键共性技术,乍一看似乎不聚焦,犯了初创企业的大忌,这家公司就是深谋科技(以下简称“深谋”)。
2025-01-09 11:25:43
830
原创 支付宝开放平台-开发者社区——AI 日报「1 月 7 日」
不过,在国内,能做到两条线齐头并进的公司还非常少。在终极想象中,眼镜这一形态将始终陪伴用户,它连接超级AI助手,即可满足人类生活、办公、娱乐、出行方方面面的需求。在具体能力上,它首创了“虚拟社交圈”的玩法,APP内目前构建了6个不同类型的圈子(职场、友情、生活、学业、爱情、脑洞),每个圈子中都有多位虚拟人,充分满足不同情感陪伴需求。昆仑万维董事长兼 CEO 方汉曾提到,「从目前的情况来看,训练的 Scaling Law 其实还是有所放缓的,但是基于慢思考的、推理的 Scaling Law 又开始涌现。
2025-01-07 14:09:29
716
原创 支付宝开放平台-开发者社区——AI 日报「1 月 6 日」
此外,智能体还可以通过 SMAC-HARD 环境完成黑盒测试来评估 MARL 算法的策略覆盖性和迁移能力,即智能体在训练过程中仅通过与默认对手策略或自博弈模型进行推演,但在测试过程中与环境提供的脚本进行交互。被热议和讨论的还不止CPU本身,也包括背后的项目:一生一芯。开源自动驾驶公司Comma AI的总裁George Hotz提及的“开源最强”,追溯数据可以追溯到2024 RISC-V欧洲峰会上,香山最新版本“昆明湖”在SPECint 2006测试中,以3GHz的频率达到了标准化分数45。
2025-01-06 14:05:20
955
原创 支付宝开放平台-开发者社区——AI 日报「12 月 31 日」
当你把它定义为写作和把它定义为编程语言,人类的「输入」是不同的,模型的「输出」也是不同的。在过往的经验中,能让提示词产生惊艳效果的往往是,让模型不按照训练时候的权重、参数结构等既定的默认路径输出,人类的提示词要能唤醒模型与之「共振」,把大模型带到另外一片空间,去发挥「压缩了世界知识」的洞察力。「最神奇的是,你甚至直接跟模型说,『今天大胆一些,不要走进预制的默认结构,不要走进设定好的河道,我们去旷野中探索一番』这种对话竟然真的生效,它的输出真的开始大胆了,最神奇的就在这,它是生效的」,李继刚说。
2025-01-03 16:01:33
756
原创 支付宝开放平台-开发者社区——AI 日报「1 月 3 日」
我们亲眼见证了,今年的AI如何在逐步攀升AGI高峰。不过,那时的AI模型应该会有革命性的架构变化,而非如今的LLM路线。以伊利诺伊州为例,研究估计有14%-25%的劳动力岗位面临着工作被自动化的高风险,这意味着,高达150万工作者可能受到影响。2024年11月底,思维天空的第一款产品问世,并于12月6日开启内测:YouMind,一个面向全球创作者的AI工具,覆盖全流程,能整合多模态那种。再者,Boards——可以在这里把外来沉淀的Snips,和个人记录的Thoughts,在这里分类归类,进行整理。
2025-01-03 15:59:24
953
原创 支付宝开放平台-开发者社区——AI 日报「12 月 24 日」
是AI,将所有照片完成拼接,重现了整个教堂的景观。有经验的工程师都知道,即使是软件方案,面对跨越数量级的规模增长时,都是没那么容易的。而o3能这么快的将推理规模提升2个数量级以上,肯定不是因为OpenAI非凡的团队快速搞定了很多问题,3倍、3倍这样弄上去的。大模型的能力与人并不相同,o3可以完成一些常人很难胜任的工作,但也有很多对人简单的问题o3很难完成。梵蒂冈联合Iconem与微软,通过40万张照片和AI技术,在不到一个月内完成圣彼得大教堂的3D复刻,完美还原这座400多年历史的地标。
2024-12-24 17:33:35
846
原创 支付宝开放平台-开发者社区——AI 日报「12 月 20 日」
2、智能体和多模态整合是未来的重点——考虑如何将这些现有强大的模型以工作流的形式结合起来,让它们能够满足具体的任务需求并成功执行任务;在语言模型客观评测中,OpenAI o1-mini-2024-09-12、Google Gemini-1.5-pro-latest 位列第一、第二,阿里巴巴 Qwen-max-0919、字节跳动 Doubao-pro-32k-preview 位居第三、第四,Meta Llama-3.3-70B-Instruct 排名前五。,在不同的辩题中,模型表现差距显著。
2024-12-20 14:24:24
897
原创 支付宝开放平台-开发者社区——AI 日报「12 月 19 日」
他也提到,虽然这种策略类似 SEO,但区别是 —— “点击”不是重点,AI 搜索优化的关键在品牌曝光以及定位描述,希望 Otterly.ai 能够成为 GEO 领域的 Semrush。新问题的出现自然得有新的办法 —— 生成引擎优化(Generation Engine Optimization,GEO),虽然与 SEO 相似,但 GEO 主要关注在 LLM 等相关应用上的表现,重点是适应 AI 模型的生成能力。人物的神态细节的变化1.6进步非常大,人物的动作变化完全照prompt的顺序来的,很稳。
2024-12-19 15:18:45
1015
原创 支付宝开放平台-开发者社区——AI 日报「12 月 18 日」
如果说此前市场对于AI手机还有“蹭大模型热度”的犹豫和质疑,那么如今各大厂商都在用实际进展证明:端侧AI,已经成为手机新的竞争焦点。而如此时间节点的如此变化,反映的一个事实是,应用侧的坚定AI化,背后更关键的信心来源之一,依然是底层硬件的变化。高达4K的分辨率,大大提升的细节和真实感,人体动作和表情的改善,以及更好的物理建模和时间一致性,都让Veo 2达到了顶级AI视频模型的级别。就像手机厂商们正在竞相宣传的那样,大模型加持下的AI助手,不仅仅是“听得懂人话”版的增强型语音助手,更关键的是,它能充分。
2024-12-18 14:23:12
975
原创 支付宝开放平台-开发者社区——AI 日报「12 月 13 日」
早在三个月前,快手可灵 AI 就联合李少红、贾樟柯、叶锦添、薛晓路、俞白眉、董润年、张吃鱼、王子川、王卯卯等 9 位知名导演共同发起了「可灵 AI 导演共创计划」,制作出品 9 部 AIGC 电影短片。快手科技副总裁、大模型团队负责人张迪表示,「2024 年视觉生成领域 AI 大模型发展迅速,可灵 AI 自 6 月发布以来,已让众多用户感受到其在视频创作上的能力。自嘲用普通话不会写剧本的贾樟柯,在自己首部 AIGC 电影短片《麦收》中,借助可灵 AI 的「对口型」功能,让机器人说上了山西汾阳话。
2024-12-13 14:05:59
1006
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人