自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(4)
  • 收藏
  • 关注

原创 语音识别系统新版发布,新增多种实用功能。

新版本中,新增了“稍后添加句尾标点”的逻辑,可通过配置文件中的punctuateLater参数控制是否启用新逻辑。启用新逻辑后,当前句尾的标点,将在下一句的句首返回,这样有助于提高句尾标点的准确性。稳定状态(stable)字段用于表示当前词在中间结果中是否还会发生变化,如果stable == false 则表示该词在后续的中间结果中仍有可能发生变化;实时语音识别支持将 RTSP 音视频流作为语音识别的音频源,系统将从指定的 URL 拉流并对其中的语音数据进行语音识别处理。目前支持 AAC 编码的音频格式。

2024-01-11 16:26:46 531

原创 语音识别领域的两篇Speech Communication (CCF-B类期刊)高水平论文

相比之下,人类在复杂和嘈杂的环境中具有辨别语音的非凡能力,这激励我们从人类听觉系统获得灵感进行语音或非语音的判断。首先,我们研究听觉启发式调制特征的设计作为深度学习编码器(AME),有效地模拟声音信号传输到内耳毛细胞和随后由神经细胞进行调制滤波的过程。其次,基于人类听觉系统中观察到的掩蔽效应,我们通过引入掩蔽机制来增强我们的听觉启发式调制编码器,从而产生AMME。第三,受人类听觉机制的启发,并利用上下文信息,我们利用注意力机制进行VAD。论文作者:林羽钦、党建武、王龙标、李胜、丁尘辰。

2024-01-11 16:20:49 449

原创 智能会议-离线语音识别系统

智能会议 语音转写,支持离线语音识别,实时转写上屏,角色分离等功能。超高性价比。

2023-01-31 13:24:49 371

原创 离线语音识别应用(windows和Android)

选自 慧言科技AI平台技术文档内容。

2021-12-28 16:21:44 3776

离线语音识别算法+不用GPU+支持安卓与国产化

SDK接口 参数说明 huiyanGetAvailableDays 输入参数 参数 含义 类型 默认值 范围或推荐值 keyFilePath 从网页端或小工具获取到的授权码文件路径 const char* 无 无 type 联网激活或不联网激活标识位 const char* 无 0:联网激活 1:不联网激活 返回结果 含义 类型 范围或类型 剩余天数 int 1-90 永久授权恒返回-1 huiyanAsrInit 输入参数 参数 含义 类型 默认值 范围或推荐值 modelPath 模型文件路径 const char* 无 无 lang 目标识别语种 const char* 无 中文:"zh-cmn-Hans-CN" 见语种代码表 keyFilePath 从网页端或小工具获取到的授权码文件路径 const char* 无 无 id 用户key const char* 无 无 type 联网激活或不联网激活标识位 const char* 无 0:联网激活 1:不联网激活 isItnOpened 是否在后处理中执行ITN,注意:不会对词信息进行ITN转换 bool true tru

2023-02-03

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除