- 博客(129)
- 收藏
- 关注
原创 自监督学习在言语障碍及老年语音识别中的应用
本文通过探索一系列技术,将最新的单语言和多语言SSL预训练语音基础模型及其特征整合到混合TDNN和Conformer ASR系统中,以提高对言语障碍和老年语音的识别能力。
2024-07-22 15:12:47 451
原创 基于声学基元的高质量空间音频生成框架
本研究提出了一种新颖的声音渲染方法,该方法基于声学原语,灵感来源于最近在视觉神经渲染中依赖于体积原语(如立方体或高斯)的方法。这种方法不仅可以在人体附近模拟声音,而且可以显著减少声场表示的参数数量,从而实现更紧凑和高效的声场表示。
2024-07-21 17:46:15 743
原创 跨模态特征对齐实现高级声源定位
本文构建了一个新的基准数据集,用于评估交互式声音来源定位;同时提出了一种新的学习方法,在声音来源定位和跨模态检索任务上取得了最先进的性能。
2024-07-19 20:55:13 1069
原创 人工智能 (AI) 应用:一个异常肺呼吸声辅助诊断系统
本文提出的Multi-breath模型在ICBHI 2017数据集上取得了59.2%的Score,优于现有轻量级模型,可以很好地提高自动异常呼吸音分类的准确性。
2024-07-17 23:03:29 1043
原创 SPIQA:一个大规模的计算机科学论文多模态问题回答数据集
本文介绍的SPIQA(科学论文图像问题回答),这是第一个专门为解释科学论文中的复杂图表和表格而设计的大型QA数据集,涵盖了计算机科学各个领域。
2024-07-16 22:26:50 762
原创 人工智能 (AI) 应用:一个高精度ASD 诊断和照护支持系统
在诊断和治疗自闭症谱系障碍(ASD)方面应用人工智能(AI)为医疗专业人员和护理人员面临的许多挑战提供了有希望的解决方案。本研究强调了AI在标准化诊断过程、个性化治疗计划以及改善多学科护理团队之间的沟通和协调方面的潜力。
2024-07-15 20:55:19 783
原创 SuperCLUE:中文大模型基准测评2024年上半年报告
SuperCLUE是一个中文通用大模型的综合性评测基准,其前身是CLUE(The Chinese Language Understanding Evaluation),自2019年成立以来,CLUE基准一直致力于提供科学、客观和中立的语言模型评测。SuperCLUE继承并发展了CLUE的测评体系,构建了一个多层次、多维度的综合性测评基准,以适应通用大模型在学术、产业与用户侧的广泛应用。
2024-07-14 20:26:25 1403
原创 如何将LLM 集成到自动化生产系统
在从自动化到自主的过渡中,关键的区别在于智能——做出明智、动态决策的能力。大语言模型(LLM)可以提供智能,填补传统自动化和工业系统中自主之间的差距。将LLM集成到工业自动化系统中,使我们能够利用它们在工业自动化中执行多样化任务的能力,进一步减少需要人类干预的任务中的智能需求。
2024-07-14 09:43:54 869
原创 STFT:解决音频-视频零样本学习 (ZSL) 中的挑战
本文提出一种新的Spiking Tucker Fusion Transformer(STFT)用于视听零样本学习,整体性能有了大幅提高。
2024-07-13 20:52:25 1476
原创 脑电图 (EEG) :语音脑机接口(BCI)的理想选择
尽管存在挑战,EEG作为一种非侵入性技术,仍然具有巨大的潜力,可以用于开发语音脑机接口。EEG能够提供足够高的时间分辨率来捕捉语音产生的快速变化的神经活动。此外,EEG设备的便携性使其有潜力在各种环境中使用,包括家庭和医院之外的场所。
2024-07-12 08:45:26 818
原创 音频语言学习领域数据集现状、分类及评估
本文对音频语言学习领域(也称为音频文本学习)中使用的现有数据集进行了调查,重点关注使用大型、多样化数据集来提高模型性能的趋势。概述了用于训练音频语言模型的多个数据集,并分析了这些数据集的来源、特性和用途。此外,还进行了数据泄露分析,以确保数据集的完整性和减轻数据集之间的偏差。
2024-07-11 15:46:44 847 2
原创 MMII 的多模态医学图像交互框架:更直观地理解人体解剖结构和疾病
本文介绍一个多模态医学图像交互(MMII)框架,允许医学专家在三维空间中与人体组织进行动态的视听交互。在虚拟现实环境中,用户接收到基于物理信息的视听反馈,以提高对解剖结构的空间感知。MMII使用基于模型的声音化方法,从组织的几何和物理属性生成声音,从而消除了手工制作声音设计的需要。
2024-07-10 21:38:08 1445
原创 低资源低成本评估大型语言模型(LLMs)
本文关注有限预算下的评估问题,即在给定预算内找到最佳方法。本文提出两种主动选择算法UCB-E和UCB-E-LRF。第一个算法是经典UCB-E [2]的扩展,用于解决多臂老虎机问题;第二个算法UCB-E-LRF,利用了评分矩阵内在的低秩性质。
2024-07-09 22:59:41 1083
原创 阿里开源语音理解和语音生成大模型FunAudioLLM
阿里开源大模型FunAudioLLM,一个创新的框架,旨在促进人类与大型语言模型(LLMs)之间的自然语音交互。FunAudioLLM的核心是两个开创性的模型:用于语音理解的SenseVoice和用于语音生成的CosyVoice。
2024-07-08 22:45:18 2483
原创 Meerkat:第一个统一视听空间和时间定位的MLLM
本文提出了Meerkat,这是第一个能够分别在图像和音频中有效进行空间和时间定位的统一视听大型语言模型框架。它具有两个关键模块,这些模块对其细粒度理解的强能力至关重要:一个基于最优传输的模态对齐模块,它以弱监督方式学习图像和音频补丁之间的跨模态对齐;以及一个能够强制执行跨注意力热图中一致性的跨模态注意力模块。这两个模块共同使学习更好的联合视听表示成为可能。
2024-07-07 17:21:22 948
原创 基于深度学习的软件漏洞检测模型在现实数据集上的表现
软件漏洞对日常软件系统的影响令人担忧。尽管已经提出了基于深度学习模型的漏洞检测方法,但这些模型的可靠性仍然是一个重大问题。先前的评估报告这些模型具有高达99%的召回率/F1分数,但研究发现,这些模型在实际应用场景下的表现并不佳,特别是在评估整个代码库而不仅仅是修复提交时,性能会显著下降。
2024-07-06 09:48:15 887
原创 DisFormer:提高视觉动态预测的准确性和泛化能力
尽管在静态图像的解耦表示学习方面已经取得了一些进展,但在视频领域,尤其是在没有对对象可能具有的属性类型做出具体假设的一般性设置中,这方面的工作还相对欠缺。最新的研究进展已经显示出目标中心的表示方法在视觉动态预测任务中可以显著提升预测精度,并且增加模型的可解释性。当前的视觉动态预测方法在处理对象动态时,通常需要依赖于对象属性的显式监督信息,或者在静态图像上进行解耦表示学习。3D 数据集的属性解耦: DisFormer 在 3D 数据集上的属性解耦效果不如 2D 数据集,这可能是由于 3D 场景的复杂性更高。
2024-07-05 20:38:37 876
原创 精准畜牧业:多维传感监测及分析动物采食行为
精准畜牧业(Precision Livestock Farming, PLF)在个体水平上监测动物行为和疾病检测。PLF建立在传感器、通信协议、信号处理、计算智能算法和嵌入式处理器之上的,允许开发便携式设备,用于实时监测个体动物,为农业系统提供积极管理支持。
2024-07-04 22:52:59 709
原创 人脸重建迁移攻击FRTA:绕过各种未见过的面部识别系统
本文讲述的人脸重建转移攻击(FRTA)成功重建一个可以替换真实人脸图像的图像,并在未知的编码器上成功攻击。相比于普通攻击,FRTA 具有更大的破坏性,因为它可以绕过更广泛的人脸识别系统。
2024-07-03 23:11:07 1162
原创 RealMAN:大规模真实录制且经过注释的麦克风阵列数据集
RealMAN 数据集基准实验结果表明,使用真实数据训练的模型在真实场景中取得了更好的性能,有效消除了模拟数据与真实数据之间的差距。RealMAN 数据集可以用于评估和比较语音增强和声源定位算法的性能,并提供更可靠的基准。此外,使用 RealMAN 数据集训练的可变阵列网络可以应用于未见阵列,为语音增强和声源定位技术在实际场景中的应用提供了新的可能性。
2024-07-02 23:16:33 1055
原创 利用深度学习模型进行语音障碍自动评估
本研究训练和比较了两种Audio Spectrogram Transformer (AST) 配置,用于语音障碍检测,并使用注意力回放方法生成了模型的相关图。通过分析相关图,发现模型无法完全识别有机和无机语音障碍之间的差异,并且模型对音素“/ɔ/”和片段“/e/ /s/ /i/ /n/”给予更高的分数。
2024-07-02 22:13:49 1145
原创 Web2Code :网页理解和代码生成能力的评估框架
为了解决现有 MLLM 在网页理解和代码生成方面的局限性,本文提出了 Web2Code 基准。Web2Code 包含一个大规模的网页到代码数据集,用于指令微调和一个评估框架,用于测试 MLLM 的网页理解和 HTML 代码翻译能力。
2024-07-01 23:04:30 902
原创 人工智能 (AI) 在能源系统中应用的机会和风险
AI工具还可以开启电力系统内互动的新方式,如电动汽车电池的动态充电和放电,以提供灵活的储能。这些机会有助于提高电力系统的整体能源安全。然而,AI应用的部署也可能引发网络安全风险,行为不明或意外的风险,或供应商依赖性和供应商锁定问题。AI的发展速度意味着这些风险中的许多尚未被充分理解。
2024-06-30 22:09:07 832
原创 SonicSense:声学振动丰富机器人的物体感知能力
SonicSense,一套全面的硬件和软件设计,通过手持式声学振动传感技术,实现了丰富的机器人物体感知能力。SonicSense能够区分83种真实世界对象的容器库存状态,预测异质材料,重建3D形状,并从多样的物体中重新识别对象。系统采用了一种简单但有效的启发式探索策略与对象进行交互,以及端到端基于学习的算法,融合振动信号以推断物体属性。
2024-06-30 11:03:55 1170
原创 Petal-X :心血管疾病临床风险可视化工具
本文提出并评估了Petal-X,这是一个针对普通受众的工具,使用新颖的视觉表示——花瓣乘积图(Petal Product Plots)来提供SCORE2的事后解释。该工具的设计旨在解决现有CVD风险沟通工具的挑战,并支持有效的临床医生与患者之间的CVD风险沟通。
2024-06-29 14:17:34 565
原创 WavRx:新型语音健康诊断模型
近年来,语音作为一种有前景的疾病诊断和远程健康监测手段已经出现。语音健康诊断通常基于这样一个假设:即影响发音和/或呼吸系统的疾病会导致人类语音信号中出现非典型模式。这种异常可能由多种原因造成,例如神经肌肉控制受损或声道和肺部发炎。虽然人类有时可能察觉不到语音信号中的影响,但机器学习(ML)模型可以被训练来检测某些与疾病相关的声学生物标记。多年来,已经有大量研究探索了语音处理在诊断中的使用,包括但不限于COVID-19、言语障碍、帕金森病和阿尔茨海默病,以及许多其他一般性呼吸症状。
2024-06-28 19:51:25 1374
原创 声场合成新方法:基于声波传播的框架
声场合成是指在房间内的麦克风阵列上,根据来自房间内其他位置的声源信号,合成每个麦克风的音频信号。它是评估语音/音频通信设备性能指标的关键任务,因为它是一种成本效益高的方法,用于数据生成以替代真实的数据收集,后者通常是缓慢的、昂贵的,并且容易出错的过程。
2024-06-26 22:27:06 898
原创 Younger 数据集:人工智能生成神经网络
本文引入了Younger,这是一个开创性的数据集,旨在推进人工智能生成神经网络架构 (AIGNNA) 的发展。
2024-06-25 21:14:19 565
原创 大型语言模型(LLM)和多模态大型语言模型(MLLM)的越狱攻击
随着大型语言模型(LLMs)的快速发展,它们在各种任务上表现出了卓越的性能,有效地遵循指令以满足多样化的用户需求。然而,随着这些模型遵循指令的能力不断提升,它们也越来越成为对抗性攻击的目标,这显著挑战了它们的完整性和可靠性。这种新兴的脆弱性激发了对攻击策略和强大防御的广泛研究,以更好地保护道德限制并改进LLMs。在这些漏洞中,越狱攻击尤为普遍,恶意指令或训练和解码干预可以绕过LLMs内置的安全措施,导致它们表现出不良行为。
2024-06-24 22:07:50 749
原创 首次使用回声状态网络 (ESN) 和语音特征进行帕金森病 (PD) 预测
本文提出一种诊断模型,能够在保证高准确率的同时,最小化假阴性率(即漏诊率),核心思想就是利用回声状态网络 (ESN) 和特征选择技术,从语音特征中提取信息,实现 PD 的诊断。
2024-06-23 19:09:10 996
原创 InfoMasker :新型反窃听系统,保护语音隐私
本文提出了一种高效且鲁棒的反窃听系统Infomasker,可以在干扰麦克风的同时保留授权录音。该系统利用信息掩蔽的思想,设计了一种基于音素的噪声,可以干扰机器和人类的理解,并且难以被降噪技术去除。此外,该系统还优化了噪声传输策略,并实现了硬件原型。
2024-06-23 09:35:15 830
原创 代码新手速成-推荐开源项目freeCodeCamp
作为一名开发者,你可以通过FreeCodeCamp了解最新的编程技术和最佳实践。此外,FreeCodeCamp还提供了线上聊天室和线下社区活动(Coffee and Code),让你可以与其他开发者交流心得、解决问题。通过参与这些活动,你不仅可以提高自己的编程技能,还可以结识志同道合的伙伴,共同推动开源事业的发展。
2024-06-22 14:53:21 2097 2
人工智能行业深度报告:WAIC2024,国产AI+应用“百花齐放”
2024-07-21
【路透社新闻研究所】AI和未来的新闻
2024-07-21
2024中国人形机器人产业发展蓝皮书
2024-07-19
车路云一体化:智慧出行的中国方案
2024-07-14
【世界经济论坛】2024年度十大新兴技术报告
2024-07-14
人形机器人政策应用场景及市场空间分析报告
2024-07-13
SuperCLUE中文大模型基准测评2024年上半年报告
2024-07-12
2024年中国AI医疗产业研究报告
2024-07-12
2024AIGC行业应用价值研究报告
2024-07-11
全球人工智能行业的现状和未来发展趋势
2024-07-10
华为中国信通院2024智算与大模型人才白皮书
2024-07-10
去保研2024大学专业白皮书+高考志愿填报+大学专业选择
2024-06-30
小米的声音世界-声音基础模型如何推动声音理解和生产
2024-06-30
ACMSIGSPATIAL中国分会空间数据智能大模型研究-2024年中国空间数据智能战略发展白皮书
2024-06-28
矿山产业集群大模型运营最佳实践
2024-06-28
2024军事大模型评估体系白皮书
2024-06-23
阿里研究院2024大模型训练数据白皮书
2024-06-23
MaaS(模型即服务)的概念、发展现状、挑战和未来趋势
2024-06-22
人工智能开源大模型生态研究
2024-06-22
GoogleCloud2024年数据和AI趋势报告+生成式AI+数据治理
2024-06-16
腾讯研究院2024向AI而行共筑新质生产力-行业大模型调研报告
2024-06-16
2023语音与语言处理技术交流会(深圳)PPT
2024-05-15
2024第四届声纹识别产业发展与创新研讨会PPT合集
2024-05-15
2024第四届声纹识别产业发展与创新研讨会嘉宾PPT+鲁棒声纹识别的对抗防御
2024-05-13
中国声纹识别产业发展白皮书
2024-04-28
工业AI质检标准化研究报告
2024-04-26
思科的预测性维护解决方案白皮书
2024-04-26
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人