语音处理/语音识别基础(一)- 声音到底为何可以存储和播放?

最近准备做几个语音的应用。 心中有很多的疑问, 翻阅了大量资料和图书,找到了这些问题的答案。 如果你也对这些问题好奇,这一系列的文章正是为你准备的。

  1. 声音是如何产生的?
  2. 声音是如何转变成数字信号存储在电脑上的?麦克风是如何工作的?
  3. 最早的录音设备是谁发明的?是如何发现的?
  4. 机器上的音频文件比如 pcm, wav, mp3 文件中到底存储了什么样的内容, 里面的数字表示的什么含义?
  5. pcm, wav 存储的内容有什么差异? mp3 文件跟 wav 文件的内容有什么差异?
  6. 声音文件(mp3/wav等)中的数字信号是如何复原成声音的?扬声器是如何工作的?
  7. 声音的特征有哪些? 我们如何对声音进行建模,识别声音所表达的文字?

这一篇先分享一下, 声音的基本原理,以及如何转换成数字信号的。

声音是物体振动产生的声波。声音通过介质(空气、固体、液体)传入到人耳中,带动听小骨振动,经过一系列的神经信号传递后,被人所感知。

声音是一种波。物体振动时会使介质(如空气)产生疏密变化,从而形成疏密相间的纵波。

1.麦克风是如何工作的?

20世纪初,麦克风由最初通过电阻转换声电发展为电感、电容式转换,大量新的麦克风技术逐渐发展起来,这其中包括铝带动圈等麦克风,以及当前广泛使用的电容麦克风和驻极体麦克风。圈麦克风的工作原理是以人声通过空气使震膜振动,然后在震膜上的电磁线圈绕组和环绕在动圈麦头的磁铁形成磁力场切割,形成微弱的波动电流。电流输送到扩音器,再以相反的过程把波动电流变成声音。

麦克风的工作原理是电磁感应,当对着麦克风唱歌时,产生的声音使膜片振动,与膜片相连的线圈也跟着一起振动,线圈在磁场中切割磁感线,能产生随着声音变化而变化的电流,经过放大后,通过扬声器还原成声音.因此麦克风的工作原理是电磁感应.

话筒电容式和电磁式(电感式)的原理是:电磁式话筒 当有声音传人时,由于震动线圈在磁场运动产生微弱电压,这个微弱电压是随声音大小而变化;这个微弱电压经过放大后再到音响还原我们的声音 。电容式话筒是利用声音的大小产生忽变的压降然后经过放大到功放还原我们的声音

铝带麦克风

对于铝带麦克风来说,其使用的铝带既是麦克风膜片,又是在磁场中运动的导体。铝带通常由铝帛制成,厚0~1毫米,宽2毫米~4毫米,质量仅为0.2毫克,以求达到较好的瞬态反应。为了取得在2kHz~4kHz之间较理想的共振频率,铝带被制成皱折状以保持一个精确的张力值。铝带作为导体和麦克风膜片被悬挂于两磁极面中间的磁场中,随入射声波频率而振动,同时在铝带两端产生一定的电压输出。

动圈式麦克风

主要原理是,利用声波震动膜片,使膜片上缠绕的线圈在电磁感应的情况下,产生电流变化,从而被录音设备记录下来,达到录音效果。

电容型

电容式麦克风有两块金属极板,其中一块表面涂有驻极体薄膜(多数为聚全氟乙丙烯)并将其接地,另一极板接在场效应晶体管的栅极上,栅极与源极之间接有一个二极管。当驻极体膜片本身带有电荷,表面电荷地电量为Q,板极间地电容量为C,则在极头上产生地电压U=Q/C,当受到振动或受到气流地摩擦时,由于振动使两极板间的距离改变,即电容C改变,而电量Q不变,就会引起电压的变化,电压变化的大小,反映了外界声压的强弱,这种电压变化频率反映了外界声音的频率,这就是驻极体传声器地工作原理。

电容型麦克风,内部有两块相邻的金属薄板,其中一块是固定不动的,另一块则是可以随着声波震动的,也就是振膜。给这块极板加上恒定电压之后,振膜的震动就会使其与固定极板之间的距离发生变化,从而得到一个随声压变化的电流。

应用在拾取各种乐器、录音棚、等等。音质更加温暖润泽。

2.扬声器是如何工作的?

扬声器工作原理是: 交变电流流经扬声器的线圈时切割磁力线,使线圈随着音频电流大小带动纸盆振动还原出声音。话筒则相反:它是由声波推动纸盆带动与纸盆连在一起的线圈切割磁力线产生音频电流,通过放大再由喇叭还原出声音。以原理上讲是相同的都是切割磁力线,工作方式上不同,一个是先有电,再发声,一个是先发声再有电。

声音的采集设备:声音传感器, 话筒, 录音笔.

声音传感器的作用相当于一个话筒(麦克风)。它用来接收声波,显示声音的振动图象,但不能对噪声的强度进行测量。传感器内置一个对声音敏感的电容式驻极体话筒。声波使话筒内的驻极体薄膜振动,导致电容的变化,而产生与之对应变化的微小电压。这一电压随后被转化成0-5V的电压,经过A/D转换被数据采集器接受,并转变为数字信号。

3.最早的录音设备

爱迪生在发明和开发电话的过程中,发现了录音设备。当时做了面向公众的录音和播放演示,方法是用一个庞大的设备,把声音的震动幅度记录下来,播放的时候把震动再复原为声音。当时新闻出来,世界为之震惊。 今天我们还能听到当年爱迪生的录音。
图:最早的录音设备

4.数字信号与模拟信号的转换过程

信号和噪声

  人们想获取的信息有可以称之为信号,比如图像,文本,语音,视频等等,其它能够影响人们对有用信息的信号叫噪声,比如听音乐的时候别人在说话,干扰你听清这段音乐,别人说话就是噪声。

模拟信号和数字信号

  我们讨论自变量为时间的信号,因为信号的英文是signal,所以以后的幅值都用s表示,也就是我们讨论的函数是s = s(t)

连续信号:自变量t是连续的,但是s是不是连续的无所谓(比如像分段函数那样的信号),这样的信号都叫连续信号。

模拟信号:如果自变量t是连续的,幅值s是连续的,那么这个信号称之为模拟信号,比如我们的声音信号。

离散信号:它是在连续信号上采样得到的信号。离散信号是一个序列,即其自变量是“离散”的。这个序列的每一个值都可以被看作是连续信号的一个采样,也就是说自变量离散,幅值可以离散,也可以连续,就像数列是函数的采样。

数字信号:自变量是离散的、因变量也是离散的信号。离散时间信号没有经过量化,它的取值可以是无穷多种取值。只有经过量化,变成有限多个取值,才是数字信号。例如:二进制数字信号,只有两种取值。四进制数字信号只有四种取值,以此类推。

通信系统

  通信的过程,可以理解为一个人给另一个人打电话,信号传播的过程。先看图:

通信原理】第一章绪论- 哔哩哔哩

信源:信号从哪里来

信宿:信号到哪里去

信道:信号传播过程的媒介,比如导线、光纤、空气等等

发送设备(发送机):用于把信号转变为适用于信道传输的形式(编码,调制)

接收设备(接收机):是发射机的逆过程

一个最基本通信过程如下:

  • 信号的产生,如语音、视频、图像等

  • 通过一系列诸如电子的、可听到的或者可看到的符号对信号进行描述,并精确到某一精度

  • 用一种适于在物理媒介中传输的方式对这些符号进行编码

  • 将编码后的符号发送到指定的目的地

  • 对原始符号进行译码和重现

  • 对原始信号的重新生成,一般来说信号质量会下降,因为有干扰。

模拟信号发送和接收

大量的信源都是模拟信源,模拟信源可以直接调制和发送,也可以转化为数字数据后,用数字调制技术发送,音频信号和视频信号的广播采用模拟调制,主要代表为收音机。模拟信号和数字信号的转换随后再说。首先解决一个问题,什么叫调制。

调制 (PCM, Pulse Code Modulation 脉冲编码调制):是一种将信源产生的信号转换为适宜信道传输的形式的过程。根据调制信号的种类,分为模拟调制和数字调制。

换句话说,为啥需要调制,因为信源产生的原始信号(以后我们叫它为基带信号)不适合在信道中传输,原因很多,比如基带信号的频率较低等。调制的过程就是把基带信号转化成适合信道传输的信号。一般来说载波信号是高频信号(一般是一个高频余弦信号或脉冲信号),这样就把低频的基带信号带到了高频,以便在信道中传输,举个的例子,基带信号的频率是0-50Hz,信道通带是10KHz到50KHz,显然基带信号根本传输不了,人家是高速公路,行人不让上高速,所以搭了个车,到目的地下车,载波信号就是这个车的作用,起到了承载基带信号的作用,也就是通过载波信号调制基带信号,因此原来的基带信号在调制过程中也叫调制信号。

通信原理之模拟信号发射和接收_tsfx051435adsl的博客-CSDN博客

https://zh.wikipedia.org/wiki/%E6%A8%A1%E6%93%AC%E4%BF%A1%E8%99%9F

模拟信号的数字化实现

在现实的工业现场,人们常使用各种传感器,变送器实现模拟量信号的采集转换等功能。在工业现场常见的这类仪器仪表都有什么呢?

压力变送器:是一种将压力转换成气动信号或电动信号进行控制和远传的设备,常见的是电动信号的,它能将测压元件传感器感受到的气体、液体等物理压力参数转变成标准的电信号(如4~20mA电流信号,0-5V/0-10V电压信号),以供给指示报警仪、记录仪、调节器等二次仪表进行测量、指示和过程调节。

温度变送器:采用热电偶、热电阻作为测温元件,从测温元件输出信号送到变送器模块,经过稳压滤波、运算放大、非线性校正、V/I转换、恒流及反向保护等电路处理后,转换成与温度成线性关系的4~20mA电流信号0-5V/0-10V电压信号。

图像传感器:图像传感器是利用光电器件的光电转换功能。将感光面上的光像转换为与光像成相应比例关系的电信号。与光敏二极管,光敏三极管等“点”光源的光敏元件相比,图像传感器是将其受光面上的光像,分成许多小单元,将其转换成可用的电信号的一种功能器件。图像传感器分为光导摄像管和固态图像传感器。与光导摄像管相比,固态图像传感器具有体积小、重量轻、集成度高、分辨率高、功耗低、寿命长、价格低等特点。因此在各个行业得到了广泛应用。常用的有两种:CCD是应用在摄影摄像方面的高端技术元件,CMOS则应用于较低影像品质的产品中,它的优点是制造成本较CCD更低,功耗也低得多。

实际生产生活中的各种物理量,如摄相机摄下的图像、录音机录下的声音、车间控制室所记录的压力、流速、转速、湿度等等都是模拟信号。数字信号是在模拟信号的基础上经过采样、量化和编码而形成的。具体地说,采样就是把输入的模拟信号按.适当的时间间隔得到各个时刻的样本值.量化是把经采样测得的各个时刻的值用二进码制来表示,编码则是把量化生成的二进制数排列在一起形成顺序脉冲序列。

模拟信号传输过程中,先把信息信号转换成几乎“一模一样”的波动电信号(因此叫“模拟”),再通过有线或无线的方式传输出去,电信号被接收下来后,通过接收设备还原成信息信号。

近百年以来,无论是有线相连的电话,还是无线发送的广播电视,很长的时间内都是用模拟信号来传递信号的。

照说模拟信号同原来的信号在波形上几乎“一模一样”,似乎应该达到很好的传播效果,然而事实恰恰相反,过去我们打电话时常常遇到听不清、杂音大的现象;广播电台播出的交响乐,听起来同在现场听乐队演奏相比总有较大的欠缺;电视图像上也时有雪花点闪烁。这是因为信号在传输过程中要经过许多的处理和转送,这些设备难免要产生一些噪音和干扰;此外,如果是有线传输,线路附近的电气设备也要产生电磁干扰;如果是无线传送,则更加“开放”,空中的各种干扰根本无法抗拒。这些干扰很容易引起信号失真,也会带来一些噪声。这些失真和附加的噪声,还会随着传送的距离的增加而积累起来,严重影响通讯质量。对此,人们想了许多办法。一种是采取各种措施来抗干扰,如提高信息处理设备的质量,尽量减少它产生噪音;又如给传输线加上屏蔽;再如采用调频载波来代替调幅载波等。但是,这些办法都不能从根本上解决干扰的问题。另一种办法是设法除去信号中的噪声,把失真的信号恢复过来,但是,对于模拟信号来说,由于无法从已失真的信号较准确地推知出原来不失真的信号,因此这种办法很难有效,有的甚至越弄越糟。

模拟信号主要是与离散的数字信号相对的连续的信号,模拟信号分布于自然界的各个角落,如气温的变化,而数字信号是人为的抽象出来的在幅度取值上不连续的信号。电学上的模拟信号主要是指幅度相位都连续的电信号,此信号可以被模拟电路进行各种运算,如放大,相加,相乘等。

模拟数据(Analog Data)是由传感器采集得到的连续变化的值,例如温度、压力,以及目前在电话、无线电和电视广播中的声音和图像。 数字数据(Digital Data)则是模拟数据经量化后得到的离散的值,例如在计算机中用二进制代码表示的字符、图形、音频与视频数据。

目前,ASCII美国信息交换标准码(American Standard Code for Information Interchange)已为ISO国际标准化组织和CCITT国际电报电话咨询委员会所采纳,成为国际通用的信息交换标准代码,使用7位二进制数来表示一个英文字母、数字、标点或控制符号;图形、音频与视频数据则可分别采用多种编码格式。

(1)模拟信号与数字信号的关系

不同的数据必须转换为相应的信号才能进行传输:模拟数据一般采用模拟信号(Analog Signal),例如用一系列连续变化的电磁波(如无线电与电视广播中的电磁波),或电压信号(如电话传输中的音频电压信号)来表示;数字数据则采用数字信号(Digital Signal),例如用一系列断续变化的电压脉冲(如我们可用恒定的正电压表示二进制数1,用恒定的负电压表示二进制数0),或光脉冲来表示。

当模拟信号采用连续变化的电磁波来表示时,电磁波本身既是信号载体,同时作为传输介质;而当模拟信号采用连续变化的信号电压来表示时,它一般通过传统的模拟信号传输线路(例如电话网、有线电视网)来传输。 当数字信号采用断续变化的电压或光脉冲来表示时,一般则需要用双绞线、电缆或光纤介质将通信双方连接起来,才能将信号从一个节点传到另一个节点。

(2)模拟信号与数字信号之间的相互转换

模拟信号和数字信号之间可以相互转换:模拟信号一般通过PCM脉码调制(Pulse Code Modulation)方法量化为数字信号,即让模拟信号的不同幅度分别对应不同的二进制值,例如采用8位编码可将模拟信号量化为2^8=256个量级,实用中常采取24位或30位编码;数字信号一般通过对载波进行移相(Phase Shift)的方法转换为模拟信号。 计算机、计算机局域网与城域网中均使用二进制数字信号,目前在计算机广域网中实际传送的则既有二进制数字信号,也有由数字信号转换而得的模拟信号。但是更具应用发展前景的是数字信号。

https://old.pep.com.cn/czwl/jszx/tbjx/tb9/tb8s9/jc9/201105/t20110512_1040960.htm

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值