杰说新技术
码龄3年
关注
提问 私信
  • 博客:61,025
    视频:9,219
    70,244
    总访问量
  • 47
    原创
  • 25,858
    排名
  • 591
    粉丝
  • 0
    铁粉
  • 学习成就

个人简介:AIGC最新前言落地技术研讨

IP属地以运营商信息为准,境内显示到省(区、市),境外显示到国家(地区)
IP 属地:浙江省
  • 加入CSDN时间: 2022-05-17
博客简介:

m0_71062934的博客

查看详细资料
  • 原力等级
    成就
    当前等级
    4
    当前总分
    524
    当月
    86
个人成就
  • 获得737次点赞
  • 内容获得11次评论
  • 获得418次收藏
  • 代码片获得1,134次分享
创作历程
  • 47篇
    2024年
成就勋章
TA的专栏
  • 多模态
    14篇
  • AIGC
    40篇
  • 文生视频
    5篇
  • 3D生成
    1篇
  • 英语模型
    4篇
  • ocr
    1篇
  • 文生图
    5篇
  • 数字人
    4篇
  • 虚拟换衣
    1篇
  • 定制化形象
    1篇
兴趣领域 设置
  • AIGC
    AIGC
创作活动更多

HarmonyOS开发者社区有奖征文来啦!

用文字记录下您与HarmonyOS的故事。参与活动,还有机会赢奖,快来加入我们吧!

0人参与 去创作
  • 最近
  • 文章
  • 代码仓
  • 资源
  • 问答
  • 帖子
  • 视频
  • 课程
  • 关注/订阅/互动
  • 收藏
搜TA的内容
搜索 取消

原生多模态世界模型Emu3分享

Emu3是由北京智源人工智能研究院推出的一款原生多模态世界模型。Emu3模型的特点在于它能够处理和理解多种类型的数据,包括文本、图像以及视频,并且在这些不同模态之间实现统一的输入和输出。Emu3的核心是下一个token预测,属于一种自回归方法,模型被训练预测序列中的下一个元素,无论是文本、图像还是视频。为了处理大规模的数据集,Emu3采用了张量并行、上下文并行和数据并行相结合的方法,以便有效地利用计算资源。
原创
发布博客 前天 06:00 ·
327 阅读 ·
2 点赞 ·
0 评论 ·
7 收藏

支持高达20s的文生视频,书生·筑梦Vchitect2.0模型分享

Vchitect2.0,也称为书生·筑梦2.0,是由上海人工智能实验室推出的一款新一代视频生成大模型。Vchitect2.0模型集成了文生视频、图生视频、插帧超分、训练系统一体化的功能,支持长达5秒至20秒的视频生成,分辨率可达到720x480。Vchitect 2.0还支持多种视频格式,包括横屏、竖屏、4:3、9:16和16:9等比例,极大地扩展了其应用场景。
原创
发布博客 2024.11.18 ·
256 阅读 ·
5 点赞 ·
0 评论 ·
3 收藏

最新集成视频、图像、语言理解和生成的多模态模型VILA-U分享

VILA-U是一个由清华大学、麻省理工学院和英伟达联合推出的统一多模态基础模型。VILA-U能够同时处理视频、图像和文本数据,打破了传统视觉语言模型中理解和生成功能分离带来的限制。VILA-U采用了自回归Transformer架构,能够处理离散化的标记,并且由几个核心组件构成:视觉编码器、语言模型以及投影仪,这些组件共同工作以桥接视觉和文本两种模态的嵌入。VILA-U通过预训练期间将离散视觉标记与文本输入对齐,并利用自回归图像生成技术,在高质量数据集上可以实现与扩散模型相媲美的图像质量。
原创
发布博客 2024.11.15 ·
269 阅读 ·
4 点赞 ·
0 评论 ·
5 收藏

腾讯首个3D生成大模型Hunyuan3D-1.0分享

Hunyuan3D-1.0是腾讯混元团队开发的首个同时支持文字、图像转3D的大模型,可以基于文本描述或单张图像生成3D模型。Hunyuan3D-1.0采用了多视图生成和多视图重建两阶段的方法,能够从不同视角捕捉对象的纹理和几何信息。在多视图生成阶段,Hunyuan3D-1.0模型采用自适应CFG技术,为不同视角和时间步设置不同的CFG尺度值,以平衡生成控制和多样性。
原创
发布博客 2024.11.11 ·
716 阅读 ·
4 点赞 ·
0 评论 ·
8 收藏

Meta AI最新推出的长视频语言理解多模态模型LongVU分享

LongVU是由Meta AI团队推出的一种专注于长视频语言理解的多模态模型。LongVU的架构设计包括使用DINOv2技术去除冗余帧,融合剩余帧的特征,通过跨模态查询选择性地减少视觉标记,根据时间依赖关系进行空间标记压缩,以进一步适应大型语言模型的有限上下文长度。LongVU利用基于文本引导的跨模态查询来选择性地减少视频帧的特征,能保留与文本查询最相关的帧的详细信息,将其他帧减少到低分辨率的标记表示。
原创
发布博客 2024.11.08 ·
436 阅读 ·
4 点赞 ·
0 评论 ·
3 收藏

超越ASR+LLM+TTS,最强端到端语音对话模型GLM-4-Voice部署

GLM-4-Voice是由智谱公司开发的一款端到端的情感语音模型。GLM-4-Voice由三个部分组成,包括Tokenizer、Decoder和9B模型,其中Tokenizer负责将连续语音转换为离散token,Decoder将token转换回连续语音输出,而9B模型则基于GLM-4-9B进行预训练和对齐,理解和生成离散化的语音。GLM-4-Voice能够模拟不同的情感和语调,如高兴、悲伤、生气、害怕等情绪,并用合适的情绪语气进行回复,这使得它在情感表达上比传统的TTS技术更加自然和细腻。
原创
发布博客 2024.11.04 ·
358 阅读 ·
5 点赞 ·
0 评论 ·
8 收藏

编程小能手,Yi-Coder模型部署

Yi-Coder是零一万物推出的一系列开源AI编程助手模型,专为提升代码生成、理解、调试和补全等任务的效率而设计。Yi-Coder能够处理长达128K tokens的上下文内容,有效捕捉长期依赖关系,适用于复杂项目级代码的理解和生成。Yi-Coder支持52种主要编程语言,包括但不限于Java、Python、C++、JavaScript等,能够在代码生成和跨文件代码补全方面表现优异。
原创
发布博客 2024.11.01 ·
449 阅读 ·
4 点赞 ·
0 评论 ·
8 收藏

最新阿里开源视频生成框架Tora部署

Tora是由阿里团队推出的一种基于轨迹导向的扩散变换器(Diffusion Transformer, DiT)技术的AI视频生成框架。Tora在生成过程中可以接受多种形式的输入,包括文字描述、图片或物体移动的路线,并据此制作出既真实又流畅的视频。通过引入轨迹控制机制,Tora能够更精确地控制视频中物体的运动模式,解决了现有模型难以生成具有精确一致运动的问题。Tora采用两阶段训练过程,首先使用密集光流进行训练,然后使用稀疏轨迹进行微调,以提高模型对各种类型轨迹数据的适应性。
原创
发布博客 2024.10.28 ·
778 阅读 ·
4 点赞 ·
0 评论 ·
10 收藏

支持多种数据来源的ocr识别,GOT-OCR2.0模型部署

GOT-OCR2.0模型是一种代表了光学字符识别(OCR)领域最新进展的高性能通用OCR解决方案。GOT-OCR2.0模型在设计上追求极致的通用性和灵活性,旨在克服传统OCR系统中遇到的各种局限性,并为用户提供了前所未有的文本识别体验。GOT-OCR2.0通过一个结构优化的vision encoder + input embedding layer + decoder架构实现了高效的数据处理,其中encoder部分采用带local attention的VITDet架构来有效管理显存使用。
原创
发布博客 2024.10.25 ·
708 阅读 ·
6 点赞 ·
0 评论 ·
13 收藏

阿里最新开源多模态大模型Ovis部署

Ovis是由阿里国际AI团队开发的一款多模态大模型,它在图像理解任务上达到了SOTA水平。Ovis能够处理和理解多种不同类型的数据输入,如文本、图像等,与大型语言模型相比,它在处理非文本数据方面有显著优势。Ovis模型的特点包括创新的架构设计、高分图像处理能力、全面的数据优化、卓越的模型性能,以及全部开源可商用的优势。Ovis在数学推理问答、物体识别、文本提取和复杂任务决策等方面展现出色表现,例如可以准确回答数学问题,识别花的品种,支持多种语言的文本提取,甚至可以识别手写字体和复杂的数学公式。
原创
发布博客 2024.10.21 ·
506 阅读 ·
3 点赞 ·
0 评论 ·
8 收藏

新型扩散模型加速框架Hyper-sd分享

Hyper-SD是由字节跳动技术团队提出的一种新颖的扩散模型加速框架,通过轨迹分段一致性蒸馏和人类反馈学习,显著提升了低步数下的图像生成性能。Hyper-SD结合轨迹保持和重构策略,实现了快速且高质量的图像生成,同时支持多种风格和可控生成,为生成式AI领域带来新SOTA性能。在实际应用中,Hyper-SD 提供了多种不同步数的 LoRA 模型,可以应用于不同的基础模型,并始终生成高质量的图像。
原创
发布博客 2024.10.18 ·
403 阅读 ·
3 点赞 ·
0 评论 ·
7 收藏

超GPT3.5性能,无限长文本,超强RAG三件套,MiniCPM3-4B模型分享

MiniCPM3-4B是由面壁智能推出的一个高性能的端侧AI大模型。MiniCPM3-4B具备32k的上下文窗口,这意味着它可以处理更长的文本序列,这对于需要长时间依赖关系的任务尤其重要。MiniCPM3-4B通过使用LLMxMapReduce技术,MiniCPM3-4B能够有效地扩展其上下文理解能力,处理无限长的文本。该模型还具备强大的功能拓展性,如完整的system prompt function calling和code interpreter等能力,使其能够轻松连接外部工具和系统,提供更加便捷
原创
发布博客 2024.10.14 ·
719 阅读 ·
18 点赞 ·
0 评论 ·
5 收藏

支持超高分辨率图片生成,UltraPixel模型分享

UltraPixel模型是一种先进的超高分辨率图像合成解决方案,它通过创新的架构设计和高效的参数共享机制,成功解决了传统方法在超高分辨率图像生成领域面临的多个挑战。UltraPixel采用了一种独特的级联扩散模型结构,能够在单一模型中实现多分辨率的图像生成,从较低的1K分辨率一直到较高的6K分辨率。UltraPixel集成了一个高压缩比和对分辨率变化具有鲁棒性的自解码器,这保证了无论是在哪种分辨率下生成图像都能保持高质量。
原创
发布博客 2024.09.30 ·
733 阅读 ·
19 点赞 ·
0 评论 ·
9 收藏

在实时语音交互上超过GPT-4o,端到端语音模型Mini-Omni部署

Mini-Omni是一个专注于音频的端到端会话模型,能够实现实时的语音输入和流式音频输出。这意味着Mini-Omni能够在对话中同时处理语音和文本,而无需依赖额外的自动语音识别(ASR)或文本到语音(TTS)系统。Mini-Omni模型采用了一种文本指导的语音生成方法,结合了批量并行策略,以进一步提升性能。Mini-Omni的架构通过引入适配器来增强音频处理能力,并能够并行生成文本和音频令牌。此外,模型还采用了流式解码技术,以支持实时交互。
原创
发布博客 2024.09.27 ·
695 阅读 ·
5 点赞 ·
0 评论 ·
5 收藏

超越sora,最新文生视频CogVideoX-5b模型分享

CogVideoX-5B 是由智谱AI开发的一款视频生成大模型,它是在先前版本CogVideoX-2B的基础上进行的重大升级。这一版本不仅提高了视频生成的质量,增强了视觉效果,而且还通过优化推理性能,降低了运行所需的硬件门槛,使得更多用户能够在现有的硬件条件下使用这一先进的技术。CogVideoX-5B模型采用了3D因果变分自编码器(3D causal VAE)和专家Transformer技术,结合文本和视频嵌入,使用3D-RoPE作为位置编码,并利用3D全注意力机制进行时空联合建模。
原创
发布博客 2024.09.23 ·
764 阅读 ·
5 点赞 ·
0 评论 ·
3 收藏

最新动态一致的文生视频大模型FancyVideo部署

FancyVideo是由360AI团队与中山大学联合开发的一种创新视频生成模型。FancyVideo模型基于UNet架构,旨在解决现有视频生成模型在动作连贯性和情节流畅性方面存在的问题。FancyVideo通过引入跨帧文本引导模块(Cross-frame Textual Guidance Module, CTGM)来改进现有的文本控制机制。实验结果表明,FancyVideo在EvalCrafter Benchmark上的定量评估和其他T2V模型相比,在视频生成质量、文本一致性、运动性和时序一致性方面均
原创
发布博客 2024.09.20 ·
439 阅读 ·
4 点赞 ·
0 评论 ·
7 收藏

最新腾讯高精度动作模仿模型MimicMotion分享

MimicMotion是由腾讯公司研发的一项可控视频生成框架,旨在生成高质量、长时序且与目标姿态相符的人体动作视频。MimicMotion通过置信度感知的姿态引导技术,可以生成任意长度的高质量视频,并且能够实现时间上的平滑过渡。MimicMotion通过使用复杂的算法确保了生成视频的质量,包括减少图像失真、提升人像手部动作的真实感等。MimicMotion 项目展示了在人工智能视频生成领域的显著进步,特别是在处理长视频和复杂动作时的能力。随着技术的不断发展和优化,预期 MimicMotion 将在动
原创
发布博客 2024.09.18 ·
1126 阅读 ·
25 点赞 ·
0 评论 ·
16 收藏

最新融合多模态的理解和生成的大一统transform架构,show-o模型部署

Show-o模型是一个由字节跳动和新加坡国立大学联合发布的统一多模态理解和生成模型。Show-o通过结合自回归和(离散)扩散建模,能够在不同的模态间进行灵活转换,处理视觉问答、文本到图像生成、文本引导的修复/外推等多种任务。Show-o采用了一个统一的Transformer架构来处理多模态任务,这使得模型可以在不同的任务之间共享参数,从而减少了训练成本并提高了模型的泛化能力。与传统的自回归模型相比,Show-o能够根据输入和输出的模态自适应地调整其处理方式,这种灵活性使其在处理混合模态数据时表现出色。
原创
发布博客 2024.09.13 ·
596 阅读 ·
5 点赞 ·
0 评论 ·
10 收藏

支持黑神话悟空的超长视频理解,Qwen2-VL多模态大模型分享

Qwen2-VL是阿里巴巴达摩院开发的一款先进的视觉多模态人工智能模型。Qwen2-VL能够处理包括图像、视频在内的多种模态数据,这意味着它不仅能够理解静态图像,还能解析动态视频内容,为更广泛的应用场景提供了可能。Qwen2-VL模型特别针对长文本和长视频的理解进行了优化,能够处理超过20分钟的视频内容,并且对于长文本也有很好的理解能力。Qwen2-VL能够读懂不同分辨率和不同长宽比的图片,在多个视觉理解基准测试中取得了全球领先的表现,如MathVista、DocVQA、RealWorldQA、MTV
原创
发布博客 2024.09.09 ·
632 阅读 ·
3 点赞 ·
0 评论 ·
10 收藏

支持图片和视频分割,SAM2最新分割一切大模型分享

Segment Anything Model 2 (SAM2) 是由Meta公司发布的先进图像和视频分割模型。作为Segment Anything Model (SAM) 的后续产品,SAM2 展示了在图像和视频综合对象分割方面的显著进步。SAM 2支持多种类型的提示输入,如点、边界框或掩码等, 提高了用户的交互性和模型的灵活性。除了技术上的突破,SAM2的应用前景也非常广泛。例如,在医学图像分割领域,牛津大学团队发布的Medical SAM2利用SAM 2框架,针对3D医学图像分割任务进行了优化,
原创
发布博客 2024.09.06 ·
423 阅读 ·
1 点赞 ·
0 评论 ·
2 收藏
加载更多