语音编程
文章平均质量分 93
无水先生
擅长数学,能熟练应用泛函分析、统计学、随机过程、逼近论、微分几何、非欧几何(双曲、共形)等数学理论,有数学建模能力。从事图像处理二十年以上,从事人工智能行业10年以上;在船舶、通信、铁路、教育等行业开发软件产品。
展开
-
【音频处理】音频压缩进展综述
关于音频处理,从2017年的一篇论文《神经离散表示学习》开始作为标杆。以后相继的RVQ为关键字的论文大量出现。这篇是关于RVQ和GAN级联的描述方法。其中的看点我且不论 RVQGAN做的如何,就关于这个行业的发展脉络是可见一般的。现在引入作为参考。原创 2024-04-24 11:04:24 · 2180 阅读 · 0 评论 -
Python 中的离线语音转文本
写作、编码、写博客、办公室工作、文档、报告都需要一个人在键盘上打字。这会导致健康问题,如腕管综合症、手和手指疼痛等。我非常了解这种痛苦。这是用于创建自己的离线运行的听写程序的 Python 代码。只需对着耳机的麦克风说话,它就会将您的话转换为文本并将其保存在文本文件中。原创 2024-04-09 08:12:33 · 2192 阅读 · 0 评论 -
衍射:经典波动行为
在本页中,我将尝试引导您了解光背后的基础知识。光是粒子还是波?衍射是与光传播偏差相关的现象的通用名称,与几何光学预测的偏差(即光的直线传播)有关,它揭示了光的性质波而不是微粒物质。原创 2023-10-22 09:49:06 · 4820 阅读 · 0 评论 -
【NLP-新工具】语音转文本与OpenAI的用途
OpenAI最近2022发布了一个名为Whisper的新语音识别模型。与DALLE-2和GPT-3不同,Whisper是一个免费的开源模型。它的主要功能就是将语音翻译成文本。本文将介绍如何使用这个重要应用库。原创 2023-07-31 14:58:32 · 5303 阅读 · 0 评论 -
语音识别:时间序列的动态扭曲相似度(DTW)算法
在时间序列分析中,动态时间扭曲 (DTW) 是一种用于测量两个时间序列之间相似性的算法,这两个时间序列的速度可能不同。例如,即使一个人走得比另一个人快,或者在观察过程中出现加速和减速,也可以使用 DTW 检测步行的相似性。 DTW 已应用于视频、音频和图形数据的时间序列——实际上,任何可以转换为线性序列的数据都可以使用 DTW 进行分析。一个众所周知的应用是自动语音识别,以应对不同的语速。其他应用包括说话人识别和在线签名识别。它还可以用于部分形状匹配应用。一般来说,......原创 2022-03-12 07:52:32 · 13971 阅读 · 0 评论 -
音频识别知识:采样
数码音频系统是通过将声波波形转换成一连串的二进制数据来再现原始声音的,实现这个步骤使用的设备是模/数转换器(A/D)它以每秒上万次的速率对声波进 行采样,每一次采样都记录下了原始模拟声波在某一时刻的状态,称之为样本。将一串的样本连接起来,就可以描述一段声波了,把每一秒钟所采样的数目称为采样 频率或采率,单位为HZ(赫兹)。采样频率越高所能描述的声波频率就越高。采样率决定声音频率的范围(相当于音调),可以用数字波形表示。以波形表示的频 率范围通常被称为带宽。要正确理解音频采样可以分为采样原创 2021-12-13 17:18:08 · 8665 阅读 · 0 评论 -
语音识别1: 集成 PyAudio 和 PySimpleGUI
语音识别的基本操作是:1)能够录音 2)能够将录音文件存储。以下将列出此操作,并逐条语句讲解。2 录音代码import pyaudioimport wavefrom tqdm import tqdmdef record_audio(wave_out_path,record_second): CHUNK = 1024 FORMAT = pyaudio.paInt16 CHANNELS = 2 RATE = 44100 p = pyaudio.PyAudio()原创 2021-12-08 19:36:02 · 5356 阅读 · 0 评论 -
语音识别2:CTC对齐的算法
CTC算法详解_Michael’s Blog-CSDN博客_ctcCTC算法基本原理解释_nicajonh的博客-CSDN博客_ctc算法CTC算法详解Michaelliu_dev 2018-11-02 19:49:59 44257 收藏 245分类专栏: 机器学习 文章标签: CTC 机器学习版权机器学习专栏收录该内容70 篇文章3 订阅订阅专栏和其它文章初衷一样,网上解释很多,但是讲的不是很明白,在看完几篇参考博客后特此记录简介先拿语音识别任务来说,如果现在有一个包..原创 2021-12-07 11:15:23 · 6968 阅读 · 0 评论 -
FFmpeg:您应该了解的功能、用例和优缺点
FFmpeg是一个跨平台的开源音视频框架,可用于处理、转换和流媒体音视频内容。它支持多种音视频格式,包括流行的AVI、 MP4、 MOV、 FLV、 WMV、 MPEG、 MKV等,并且可以运行在Windows、Mac OS、Linux等系统上。 本文简单介绍其中的一般知识。原创 2021-12-02 15:43:32 · 11102 阅读 · 0 评论