Python
文章平均质量分 92
海上机械师
同济大学计算机系在读博士研究生,研究兴趣是说话人识别及其相关应用。
博客主要涉及机器学习与深度学习方面的算法介绍,Python、Java 与 Matlab 的编程实现。
展开
-
VoxSRC 2020 基准模型和开发工具
VoxSRC 2020 说话人识别挑战赛1. 固定训练集的说话人识别2. 开放数据集的说话人识别3. 自监督的说话人识别4. 语音分离任务原创 2020-07-30 20:26:11 · 1594 阅读 · 0 评论 -
VoxCeleb 说话人识别挑战
VoxCeleb 说话人识别挑战“Speaker recognition in the wild” 是一项非常具有挑战性的任务,需要面对语音中各种不确定性,例如复杂的噪声、不同程度的背景音、短促的笑声等情况。针对这一问题,可以在 VoxSRC 提供的语料及其各种模型的实验结果,寻找合适的语音段编码器,设计合理的度量学习模型,分析造成性能降低的数据因素,都将成为提升识别性能的潜在解决方案。本文就 VoxSRC 提供的实验结果和相关的论文进行归纳、总结与展望。原创 2020-05-11 22:48:39 · 3489 阅读 · 4 评论 -
PyTorch-Kaldi 深度学习语音识别开源软件
Kaldi 是 C++ 实现的语音识别软件,缺少像 Python 的简单与灵活。PyTorch-Kaldi 旨在构建 Kaldi 与 PyTorch 之间的联系,充分利用 Kaldi 高效性与 PyTorch 灵活性。PyTorch-Kaldi 除了建立 Kaldi 与 PyTorch 之间的联系,还嵌入了非常有用的功能,用于开发最新的语音识别器。程序易于加入自定义的声学模型,包含初始化方法和预执行的模型。PyTorch-Kaldi 支持多个特征和标签流、神经网络组合的建模。程序已公开发布在 Github。原创 2020-03-18 14:46:36 · 2804 阅读 · 2 评论 -
PyTorch频谱特征工具 spectra_torch
spectra_torch 提供了 PyTorch 版本的语音频谱特征提取方法,例如 MFCC、滤波器组和基于能量的 VAD。测试表明:PyTorch 版本的 MFCC 提取效率优于 Numpy 版本的 MFCC,具体地说,MacOS CPU 计算机上快 0.1s/MFCC。原创 2020-03-06 21:51:32 · 2771 阅读 · 2 评论 -
Facial keypoints detection Kaggle 竞赛系列
Facial keypoints detection该题主要任务是检测面部关键点位置, Detect the location of keypoints on face images问题表述在本问题中,要求计算面部关键点的位置,即关键点在图片中的百分比坐标。 因此该问题的机理就是 [0, 1] 范围内的数值拟合,当然了,这也是一个多输出的拟合和你问题。原创 2016-04-03 20:38:55 · 4274 阅读 · 11 评论 -
Digit Recognizer Kaggle 竞赛系列
手写数字识别1. KNN 准确率 0.83886,KNN 算法预测花费时间很长2. IPCA + KNN 准确率 0.84614,IPCA 降维可能会超内存3. IPCA + RandomForest 准确率 0.84614,RandomForest 随机森林的效率比 KNN 高4. RandomForest,准确率 0.96443,深度学习中的卷积神经网络能达到 0.99+ 准确率的效果原创 2016-03-05 11:02:08 · 1385 阅读 · 0 评论 -
Titanic Kaggle 竞赛系列
Titanic: Machine Learning from DisasterKaggle 竞赛中的练习题Accuracy: 0.779900-1 分类:根据乘客类型,姓名,性别,年龄,兄弟个数,父子个数,船票,票价,船舱,港口判定乘客是船难中存活下来。数据处理可采用 pandas 工具包,分类器可采用 scikit-learn 工具包。原创 2016-03-09 17:23:28 · 1595 阅读 · 1 评论