Squid _
码龄6年
关注
提问 私信
  • 博客:92,972
    动态:139
    93,111
    总访问量
  • 37
    原创
  • 350,430
    排名
  • 63
    粉丝
  • 0
    铁粉
IP属地以运营商信息为准,境内显示到省(区、市),境外显示到国家(地区)
IP 属地:香港
  • 加入CSDN时间: 2018-09-05
博客简介:

weixin_43142450的博客

查看详细资料
个人成就
  • 获得103次点赞
  • 内容获得42次评论
  • 获得450次收藏
  • 代码片获得858次分享
创作历程
  • 5篇
    2022年
  • 31篇
    2021年
  • 1篇
    2018年
成就勋章
TA的专栏
  • 语音识别
    11篇
  • python
    3篇
  • 机器翻译
    1篇
  • 组会
  • 机器学习
    8篇
  • 软件工程
    12篇
  • Java
    1篇
兴趣领域 设置
  • 数据结构与算法
    推荐算法
创作活动更多

2024 博客之星年度评选报名已开启

博主的专属年度盛宴,一年仅有一次!MAC mini、大疆无人机、华为手表等精美奖品等你来拿!

去参加
  • 最近
  • 文章
  • 代码仓
  • 资源
  • 问答
  • 帖子
  • 视频
  • 课程
  • 关注/订阅/互动
  • 收藏
搜TA的内容
搜索 取消

为什么会存在fairseq这种东西?

发布动态 2022.08.08

fairseq错误:‘Please build Cython components with: pip install --editable ‘

fairseq错误:'Please build Cython components with: pip install --editable '
原创
发布博客 2022.07.01 ·
1880 阅读 ·
2 点赞 ·
7 评论 ·
4 收藏

torchAudio中wav2vec2的源码(三)——transformer-encoder的构建

torchAudio中wav2vec2的源码(三)——transformer-encoder构建
原创
发布博客 2022.04.12 ·
2645 阅读 ·
8 点赞 ·
5 评论 ·
14 收藏

探究torchAudio中wav2vec2的源码(二)——特征提取

探究torchAudio中wav2vec2的源码(二)——特征提取
原创
发布博客 2022.04.06 ·
6942 阅读 ·
7 点赞 ·
4 评论 ·
17 收藏

探究torchAudio中wav2vec2的源码(一)

探究torchAudio中wav2vec2的源码(一)
原创
发布博客 2022.03.30 ·
2424 阅读 ·
6 点赞 ·
3 评论 ·
10 收藏

运行torchAudio下的wav2vec2.0样例

torchAudio下运行wav2vec2.0
原创
发布博客 2022.03.29 ·
8609 阅读 ·
6 点赞 ·
7 评论 ·
44 收藏

基于矢量量化(VQ)的说话人识别(python)

最近用python做了VQLBG的说话人识别实验,记录一下。若是有错恳请指出。矢量量化的基本原理将若干个标量数据组成一个矢量(或者是从一帧语音数据中提取的特征矢量)在多维空间给予整体量化,从而可以在信息量损失较小的情况下压缩数据量。矢量量化有效地应用了矢量中各元素之间的相关性,因此可以比标量量化有更好的压缩效果。设有NNN个KKK维特征矢量X={X1,X2,⋯ ,XN}X=\{X_1,X_2,\cdots,X_N\}X={X1​,X2​,⋯,XN​}(XXX在KKK维欧几里德空间RKR^KRK中),其
原创
发布博客 2021.12.23 ·
4991 阅读 ·
4 点赞 ·
0 评论 ·
28 收藏

mRASP2数学模型

本博客主要记录mRASP2的数学模型和公式。若有错误理解,恳请加以评论。模型图公式表示我们定义了集合L={L1,L2,⋯ ,LM}L=\{L_1,L_2,\cdots,L_M\}L={L1​,L2​,⋯,LM​},集合LLL表示为涉及训练阶段的MMM个语言的集合。DDD表示所有的并行数据集,DijD_{ij}Dij​表示(Li,Lj)(L_i,L_j)(Li​,Lj​)的一个并行数据集。训练损失定义为:Lce=∑xi,xj∈D−logPθ(xi∣xj)L_{ce}=\sum_{x^i,x^j
原创
发布博客 2021.12.23 ·
1027 阅读 ·
1 点赞 ·
0 评论 ·
1 收藏

语音识别——语言模型

本博客主要是摘写洪青阳教授的《语言识别-原理与应用》的笔记,不足之处还请谅解。语音识别为:根据输入的观察值序列O,找到最可能的词序列W^\hat{W}W^。按照贝叶斯准则,识别任务可做如下转化:W^=argmax⁡W P(W∣O)=arg⁡ max⁡P(W)P(O∣W)P(O)\hat{W}={\underset {W}{\operatorname {arg max} }}\,P(W|O)=\arg\,\max\frac{P(W)P(O|W)}{P(O)}W^=Wargmax​P(W∣O)=arg
原创
发布博客 2021.12.09 ·
7535 阅读 ·
4 点赞 ·
1 评论 ·
28 收藏

DTW算法

该算法基于动态规划的思想,解决了发音长短不一的模板匹配问题,是语音识别中出现较早、较为经典的一种算法,在孤立词识别中能起到有效的作用。作用:把两段不同长度的语音在时间轴上进行了对齐。参数主要分为参考模板和测试模板参考模板R可表示为:{R(1),R(2),...,R(m),...,R(M)}\{R(1),R(2),...,R(m),...,R(M)\}{R(1),R(2),...,R(m),...,R(M)},m为训练语音帧的时序标号,m=1为起点语音帧,m=M为终点语音帧,因此M为该模板所包含的语音
原创
发布博客 2021.11.30 ·
1949 阅读 ·
1 点赞 ·
0 评论 ·
6 收藏

语音识别-音素的上下文建模

人的发音其实是个渐变过程,在从一个音素转向另一个音素时,会存在协同发音现象,包括同一个音节内部和不同音节的过渡。本博客主要看洪青阳教授写的《语音识别:原理与应用》而写的笔记。协同发音协同发音是指一个音受前后相邻音影响而发生变化。如”好好学习“的“好好”。因此同一个音素在不同位置,发音差异可能较大。中文: 好 好音节: hao3 hao3音素:h ao3 h ao3每个字都是一个音节,音节内部有发音衔接,音节之间也是有衔接的,其体现就是在语谱图过渡阶段存在交叉。上下文建模
原创
发布博客 2021.10.29 ·
2897 阅读 ·
3 点赞 ·
0 评论 ·
15 收藏

HMM(隐马尔可夫)笔记

(模板匹配)DTW主要作用:把两段不同长度的语音在时间轴上进行了对齐。DTW不足:DTW本质上是一种模板匹配技术,只能进行简单的匹配,而且其参数简单,无法对语音信号的多样性建模,只适用于特定人的小词汇量的语音识别。事实上,人说话不光是时变过程,频域分布也在变化,随机性很大。不同的人所同样的话,语音也存在较大差异。因此语音识别实际上是一个复杂的问题。双重随机过程人的发音包含双重随机过程。想说什么不确定:即说话内容,具体包含哪些符号(音素或字词)?怎么说不确定:同样内容发音的观察值差异很大。说
原创
发布博客 2021.10.09 ·
844 阅读 ·
2 点赞 ·
0 评论 ·
1 收藏

Mel频率倒谱系数-MFCC

MFCC:Mel频率倒谱系数的缩写。目的:模拟人耳对不同频率语音的感知Mel频率和Hz频率的关系人类对不同频率语音有不同的感知能力:1kHz以下,与频率成线性关系。1kHz以上,与频率成对数关系。Mel频率倒谱系数(MFCC)则是利用它们之间的这种关系,计算得到的Hz频谱特征。由于Mel频率与Hz频率之间非线性的对应关系,使得MFCC随着频率的提高,其计算精度随之下降。因此,在应用中常常只使用低频MFCC,而丢弃中高频MFCC。Fmel=2595lg(1+f/700)F_{mel}=
原创
发布博客 2021.10.06 ·
3437 阅读 ·
6 点赞 ·
1 评论 ·
29 收藏

线性预测编码(LPC)笔记

概念:一个语音的抽样能够用过去若干个语音抽样(模板)的线性组合来逼近。通过使实际语音抽样和线性预测抽样之间差值的平方和达到最小,能够决定唯一的一组预测系数。用于语音分析与合成,可估计许多语音基本参数:基音、共振峰、频谱、声道截面积等。语音信号是由一个激励信号e(k)经过一个时变的全极点滤波器产生的。生成语音信号s(k)表示为:s(n)=∑i=1pais(n−i)+e(n)s(n)=\sum_{i=1}^pa_is(n-i)+e(n)s(n)=i=1∑p​ai​s(n−i)+e(n)其中,激励信号e
原创
发布博客 2021.09.17 ·
2980 阅读 ·
5 点赞 ·
0 评论 ·
23 收藏

python深度学习笔记01-电影评论分类

​ 虽说已经对神经网络有所了解,但是理解和实践还是有区别的。例如,理解的时候,我们需要不断的推公式,实践的时候,平常只需要使用已有的函数进行调用就好。也就是不用自己做前向传播和后向传播,只需要用函数把神经网络构建好,选好优化器、损失函数和指标,最后调用拟合函数设置拟合次数就好。这就是从《python深度学习》这本书中第三章第一个例题得出的道理。注:本博客的知识都能在博主之前的机器学习笔记中学到,博主也还在学习阶段,希望大佬指导指导。问题概述​ 电影评论分类是一个二分类问题,主要是根据电影评论的文字
原创
发布博客 2021.09.09 ·
588 阅读 ·
0 点赞 ·
0 评论 ·
1 收藏

机器学习07-拟合模型诊断

我们学习了很多机器学习的使用方法,但是我们一直没有一个好的方法去得到一个高效率的拟合模型选择,因此,我们来说说如何得到一个又高效又好的拟合模型。对于这个问题,我们一样使用预测房价的例子。这是我们熟知的线性回归代价函数J。假设我们已经取到了其最小值。但是我们放入一组新的数据下去,发现预测的值和实际的值出现了很大的误差,我们应该怎么改善这个算法。找更多的训练数据进行训练。减少特征,防止过拟合增加特征增加多项式特征降低正则化参数λ的值增加正则化参数λ的值如果你随便选择这些方法,很容易让你事
原创
发布博客 2021.06.16 ·
574 阅读 ·
1 点赞 ·
0 评论 ·
0 收藏

机器学习06-神经网络+后向传播

本章,我们先来讨论一个学习算法,它能在给定训练集时为神经网络拟合参数。代价函数假设我们有一个神经网络,如下:假设我们有一个像这样的训练集:我们用再做一些记号:L:代表神经网络的总层数。S_l:代表第l层的神经元数量,其中不包括第L层的偏差单元。还记得吗?我们逻辑回归代价函数公式:现在放出我们的神经网络的代价函数公式:(哇,看起来很复杂,但其实不难理解)与回归代价函数相比,神经网络的代价函数公式在它基础上增加了点东西而已。原来cost函数加上求和k之后,等于遍历了神经网络里的cos
原创
发布博客 2021.06.06 ·
753 阅读 ·
1 点赞 ·
2 评论 ·
2 收藏

机器学习05-神经网络概念+前向传播

我们学习了线性回归、logistic,为什么还要学习神经网络。我们用几个例子作为例子。注意:如果没有学习神经网络之前的知识,如线性回归、logistic(我前面发的笔记),会比较难食用这篇文章。例子一假设有一个监督学习分类问题,我们可以利用一个包含很多非线性项的logistic回归来解决问题:决策边界就会画出来:这是只有x1和x2两个特征得到的不错的效果,因为把x1和x2的所有组合都包含到多项式中。但有趣的机器学习问题,大多都不止只有两个特征,就像我们之前讨论过的预测房价问题:假设我
原创
发布博客 2021.05.30 ·
650 阅读 ·
2 点赞 ·
2 评论 ·
5 收藏

机器学习04-过拟合问题-正则化

拟合我们知道了,那什么是过拟合呢?首先我们看看什么是欠拟合。欠拟合让我们使用回之前的线性回归来预测房价的例子,以住房面积为自变量的函数来预测房价。我们可以使用一次函数来拟合数据,我们得到这样一条直线:但这不是一个很好的模型,通过数据可以看出,房子面积越大,价格越趋向于稳定。而该拟合函数并没有很好的去拟合训练集,我们把这个问题称为欠拟合。欠拟合:如果拟合一条直线,就好像算法有一个很强的偏见,或者说非常大的偏差,认为房子价格与面积线性相关,而罔顾数据的不符,先入为主的拟合一条直线,最终导致拟合数据
原创
发布博客 2021.05.29 ·
296 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

机器学习03-分类问题

之前我们有提到邮箱里垃圾邮件分类、肿瘤分类,就是分类问题的一种,是两类分类问题。在这些问题中,我们可以尝试预测的变量y是有两个取值的变量,0或1,就等于垃圾、不垃圾,恶性、良性,通常0表示负类、1表示正类。通常1是代表我们需要寻找的东西。假设我们现在有一个给定的训练集,图示如下:如果我们用直线去拟合它,我们可能会得到下面的图:门槛(分界线)设在0.5,如果小于0.5,则等于0,大于0.5,则等于1。用直线设置下图看似很合理,假如我们有另一个训练样本位于右边处,如下:而我们拟合出来的线就会发
原创
发布博客 2021.05.27 ·
810 阅读 ·
0 点赞 ·
0 评论 ·
2 收藏
加载更多