
语音识别
文章平均质量分 64
warpin
这个作者很懒,什么都没留下…
展开
-
编辑距离与字符错误率CER
在语音识别场景中,字符错误率(Character Error Rate,CER)是衡量语音识别效果的一个重要指标。下文将介绍CER的原理,并且给出python实现的代码。1 编辑距离说到CER,不得不提的是编辑距离(Edit Distance),它是一个用来衡量两个序列的相似度指标。假设有两个字符串(a和b),编辑距离是指把字符串a修改成b(或者把b改成a)需要的最少编辑次数。编辑的操作只能有三种:插入(Insertion)删除(Deletion)替换(Substitution)比如,把c原创 2022-02-19 22:26:42 · 4549 阅读 · 0 评论 -
soundfile读URL下载(内存中bytes类型)的音频
前面尝试过用torchaudio读取URL下载的音频,在这里,但是这要求较新版本(0.8.0)的torchaudio。如果要用到torch,那么torch的版本也要比较新(1.8.0),因为torch的版本跟torchaudio是有对应关系的。如果要用GPU,1.8.0的torch需要最低10.2版本的cuda,10.2版本的cuda又要求较高版本的显卡驱动。由于升级torchaudio导致的改动比较大,所以想寻找更加便捷的方式,它就是soundfile。安装pip install PySoundFi原创 2021-11-30 17:26:04 · 1142 阅读 · 0 评论