大模型日报2024-06-16

 

大模型日报

 

2024-06-16

 

大模型资讯

 

大模型产品

 

  1. MARS5 TTS:开源高拟真语音合成

 

  • 摘要: MARS5 TTS是一款开源语音合成模型,能以2-3秒音频为参考,在140多种语言中复制高难度场景,如体育解说、电影和动漫等。

 

  1. AI工具首发平台:免费获取首个外链

 

  • 摘要: 打造AI工具,需推广助力?每周新AI工具在此发布,免费获取首个外链,提升SEO,吸引新用户。

 

  1. Humanize AI文本:让AI写作更人性化

 

  • 摘要: Humanize AI Text将AI生成内容转化为自然、人性化的文本,支持多语言,提升可读性,绕过AI检测系统。

 

  1. MarketingAI:生成SaaS营销计划

 

  • 摘要: 输入网址,MarketingAI为您的SaaS生成100%定制的25页营销计划,包含用户增长和投资回报率预测。

 

  1. Orbic AI免费工具套件上线

 

  • 摘要: Orbic AI免费工具套件现已在Product Hunt上线!涵盖从病毒内容创作到专业邮件撰写,助力提升创意与效率。

 

  1. StratifyAI:AI竞争分析助手

 

  • 摘要: StratifyAI帮你揭示市场机会,精准分析趋势,轻松超越竞争对手,助力战略成功。

 

  1. NewRA.ai:构建AI对话应用

 

  • 摘要: NewRA是一款先进的SaaS平台,帮助企业无缝集成强大的AI解决方案,提供订阅和白标选项,利用自定义知识库提升效率与创新。

 

  1. 发现并分享最佳AI工具

 

  • 摘要: SubmitAITool让你发现和分享最佳AI工具。提交你独特的AI工具或分享你喜欢的AI产品,与他人交流。

 

大模型论文

 

  1. VideoGPT+: 图像与视频编码器融合的视频理解

 

  • 摘要: VideoGPT+结合图像和视频编码器的优点,通过自适应池化策略提升视频理解性能,并在多个基准测试中表现优异。

 

  1. MiCo: 可扩展的多模态预训练范式

 

  • 摘要: 提出MiCo预训练范式,扩展多模态数据和模型参数,显著提升多模态学习能力,创37项新纪录。

 

  1. 视觉模型与人类美学对齐的算法与基准

 

  • 摘要: 本文提出一种基于偏好强化学习的方法,结合LLM推理和美学模型,提升视觉模型在检索系统中的美学表现,并引入HPIR数据集进行评估。

 

  1. 高效长视频问答关键帧选择策略

 

  • 摘要: 本文提出了两种新方法,优化长视频问答中的关键帧选择和序列感知描述,显著减少冗余,提升性能。

 

  1. LLAVIDAL:日常生活活动的LLVM基准测试

 

  • 摘要: 提出LLAVIDAL框架,通过ADL-X数据集微调LLVM,实现对日常生活活动的复杂时空关系理解,并提出ADLMCQ基准测试。

 

  1. 视觉-语言地理基础模型综述

 

  • 摘要: 本文综述了视觉-语言地理基础模型(VLGFMs),介绍其背景、核心技术及多模态地理任务应用,并讨论未来研究方向。

 

  1. VideoNIAH:视频理解基准框架

 

  • 摘要: VideoNIAH通过合成视频生成构建基准,评估视频模型的时空理解能力,支持长距离依赖任务。

 

  1. ElicitationGPT: 基于语言模型的文本评分机制

 

  • 摘要: 本文开发了利用ChatGPT进行文本评分的机制,并通过同行评审数据集与人工评分进行对比,验证其与人类偏好的对齐情况。

 

  1. 通过提示梯度对齐增强领域适应

 

  • 摘要: 本文提出了一种新的多目标优化框架,通过对齐每个目标的梯度来促进一致性,并通过罚则防止过拟合。

 

  1. 基于自监督离散语音单元的口语理解模型

 

  • 摘要: 提出使用自监督离散语音单元(DSU)和大语言模型(LLM)结合,实现跨领域口语问答任务的指令跟随能力。

 

大模型开源项目

 

  1. Roboflow:计算机视觉工具

 

  • 摘要: Roboflow 提供可重用的计算机视觉工具,使用 Python 编写,帮助用户轻松构建和部署视觉模型。

 

  1. 微软生成式AI入门课程

 

 

  1. 最强大模块化稳定扩散GUI

 

  • 摘要: 一个用Python编写的强大稳定扩散GUI、API和后端,具有图形/节点界面,功能强大且模块化。

 

  1. Apple Silicon上的Whisper语音识别

 

  • 摘要: argmaxinc项目在Apple Silicon设备上实现Whisper语音识别模型的本地推理,使用Swift语言编写。

 

  • 36
    点赞
  • 16
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值