会议记录转文字 - 语音识别

背景

在工作中,对于一些重要的会议,参会内容需要记录下来并整理成文字。随着人工智能的发展,我们考虑借助语音识别来提高效率。

个人搭建模型的话,由于缺乏训练数据,大多用来练手。市面上目前有两大类语音识别的解决方案:一类是科大讯飞和搜狗之类的输入法公司的产品,公司有现成的录音笔可以转文字,价格相对昂贵;另一类是BAT之类的云厂商的人工智能业务,提供在线计算能力和接口,按需付费。

实践

在对比了几家公司的云产品后,发现每家云平台基本每月都会赠送一定量的免费时长,我们以腾讯云为例:
腾讯云录音文件识别介绍
该产品对于本地的语音文件,要求不能超过5M,对应于常见的MP3录制文件,大概只有5分钟。由于会议内容一般都在一个小时以上,目前的产品仍然会限制我们的使用。

对于在线url文件,目前文件大小可以接近5小时,极大方便了长录音文件的语音识别。但会议内容具有一定的保密性,因此大多数情况下无法将文件生成外链暴露在公网上。

如果是保密性较低的长录音内容,可以考虑上传到个人(或所在公司)的服务器或第三方托管网站上生成外链,进行临时识别。
腾讯云 语音识别控制台
在腾讯云平台进行账号注册和认证后,在语音识别的控制台,我们发现功能体验菜单栏下,可以采用交互的方式进行方便的操作,大大减少了代码的编写,提高了产品的用户体验,这也是未来云产品的发展趋势。


针对本地语音文件不得超过5MB的缺点,我们考虑采用大文件分割的方式,将长录音文件分割成若干份不超过5MB的mp3文件,进行逐个识别和校对。我们用python进行简单的编写来实现切割功能:

import os

# 函数file_split
#     file_name : 原文件
#     split_size : 切割大小
def file_split(file_name, split_size) :
    
    # 获取绝对路径
    abs_file_name = os.path.abspath(file_name)
    print("源文件 : " + abs_file_name)

    # 获取相对路径, 文件名, 后缀
    filepath, fullflname = os.path.split(abs_file_name)
    fname, ext = os.path.splitext(fullflname)
    
    try:
        file_num = 0;
        # 打开读文件
        with open(abs_file_name, "rb") as f :
            while True :
                content = f.read(split_size)
                if not content:
                    break
                file_num += 1
                new_file_name = os.path.join(filepath, fname + ('_%04d'%file_num) + ext)
                # 循环写文件
                with open(new_file_name, "wb") as fw :
                    fw.write(content)
    except:
        print("file read error!")

# 主程序开始
file_name = r"D:\feitian\youtube\videoplayback01.mp3"
# 文件切割大小:不到5MB(1M = 1024 * 1024)
split_size = 5 * 1000 * 1000    
# 调用函数
file_split(file_name, split_size)
print("done!")

切割后的文件
然后通过依次上传的形式,可以依次得到识别的结果,并进行逐个校对,一般在所有都识别完之后,也基本上就校对完了。


总结

综上,如果费用充足,可以考虑直接购买现成的录音产品进行体验;如果有一定的编程能力,可以考虑体验以下几家云平台的产品服务,选择一个相对简便且功能强大的进行操作。

预计未来几年,在云平台语音识别的C端业务,几家公司的竞争之处将在于,一方面怎么提高文件大小上限,另一方面怎么减少用户代码量,降低SDK使用难度,完善用户体验。

  • 1
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
### 回答1: 语音识别是指通过计算机技术将语音信号化为对应的文字或命令的过程。它可以帮助我们实现语音与计算机之间的交互,提高人机交互的效率和便捷性。 在语音识别过程中,语音识别系统首先会对输入的语音进行预处理,包括去除噪声、增强语音信号等。接下来,系统会提取语音信号的特征,并通过模式匹配或机器学习等算法进行语音识别的过程。最后,将识别结果化为对应的文字输出,以完成语音识别的任务。 对于语音识别文字的应用,它可以广泛应用于语音助手、语音输入法、智能家居控制等领域。例如,我们可以利用语音识别文字的功能,通过语音命令来控制家电、搜索信息等。这样能够简化用户操作,提高用户体验。 至于MATLAB源码方面,MATLAB是一种强大的科学计算软件,具有丰富的信号处理及模式识别工具库,可以用于处理语音信号和语音识别。使用MATLAB进行语音识别,可以利用其中的信号处理工具箱、模式识别工具箱等,并编写相应的代码来实现语音信号的特征提取、模型训练等。同时,也可以利用MATLAB提供的界面设计工具来开发用户友好的语音识别界面。 综上所述,语音识别语音识别文字是计算机技术在语音处理领域的应用,而MATLAB可以作为一个强大的工具帮助我们实现语音识别的相关任务。通过语音识别文字,我们可以实现语音与计算机之间的交互,提高人机交互的效率和便捷性。 ### 回答2: 语音识别是指通过计算机技术将语音信号化为能被计算机识别和理解的文字或命令的过程。它具有广泛的应用领域,如语音助手、语音控制、语音翻译等。 语音识别文字语音识别技术的一种应用,它可以将语音输入化为电脑可以识别和理解的文字形式。这种技术在现实生活中非常实用,比如在语音记录会议内容,或者进行语音文字的操作。 MATLAB(Matrix Laboratory)是一种高级语言和交互式环境,主要用于算法开发、数据可视化、数值计算和统计分析。对于语音识别文字,MATLAB可以用来处理和分析语音信号,并通过算法实现语音信号文字的过程。 在MATLAB上进行语音识别文字的过程,通常包括预处理、特征提取、模型训练和识别等步骤。首先,对语音信号进行预处理,如去噪、增强信号等。然后,通过特征提取,提取语音信号的频率、能量等特征。接着,使用这些特征来训练模型,可以使用机器学习方法如隐马尔可夫模型(HMM)或深度神经网络(DNN)。最后,在识别阶段,使用训练好的模型对输入的语音信号进行识别,生成对应的文字结果。 MATLAB提供了一系列函数和工具箱来支持语音信号处理和语音识别文字,如信号处理工具箱、语音处理工具箱等。在使用MATLAB进行语音识别文字时,我们可以结合这些函数和工具箱,编写相应的源码来实现所需功能。 总结来说,语音识别是将语音信号化为能被计算机处理的文字形式的技术,MATLAB是一种用来处理和分析语音信号的高级语言和环境,可以通过编写源码来实现语音识别文字的过程。这种技术在实际应用中具有很大的潜力和价值。 ### 回答3: 语音识别是一种将人类语音化为计算机可识别的文字的技术。它使用声音信号处理和机器学习算法来识别和理解语音中的语言信息。语音识别技术已广泛应用于语音助手、语音搜索、语音控制和自动语音录等领域。 语音识别文字语音识别技术的一个重要应用。它将人类语音中的话语化为文字格式,使计算机能够更方便地处理和分析语音信息。通过将语音文字,我们可以在不受环境噪声干扰的情况下获取语音内容,方便日常生活和工作中的信息管理和交流。 MATLAB是一种用于科学计算和工程应用的高级编程语言和环境。它提供了丰富的工具和库函数,支持各种数字信号处理、机器学习和人工智能算法的开发和实现。在语音识别文字的过程中,MATLAB可以用于声音信号的分析、频谱特征提取、语音识别模型的训练和优化等关键步骤。 MATLAB源码是指使用MATLAB编写的实现语音识别文字功能的源代码。它包含了完整的语音识别系统的实现细节,包括声音信号处理、特征提取、语音识别模型的训练和测试等内容。通过研究和分析MATLAB源码,我们可以深入了解语音识别文字的实现原理和技术细节,并在此基础上进行改进和优化。 总之,语音识别文字是一种将语音化为可识别的文字的技术,MATLAB是一种常用于实现该技术的编程语言和环境,而MATLAB源码则是实现语音识别文字功能的源代码。通过研究和使用这些技术和工具,我们可以实现高效准确地将语音化为文字的功能,并应用于各种实际场景中。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值