Meta AI 震撼开源 PE-AV:SAM Audio 背后的“全能感知大脑”,定义音视频多模态新高度
Meta AI开源PE-AV多模态编码器,突破视听感知边界 Meta AI最新开源的Perception Encoder Audiovisual (PE-AV)编码器系列,通过1亿音视频对的大规模对比训练,实现了跨模态的统一表征。该模型采用五模块协同架构,包含视觉处理、音频处理、音视频融合等路径,支持文本到音视频、音频到视频等复杂跨模态检索。 关键技术突破包括:两阶段自动数据标注引擎生成9200万高质量视频片段;音频处理采用DAC VAE编解码器,实现40毫秒级精细采样;在AudioCaps、VGGSoun



