自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

Robin_Pi的博客

终生学习

  • 博客(36)
  • 资源 (9)
  • 收藏
  • 关注

原创 声纹识别·总章

声纹识别1. 理论声纹识别基础声纹识别算法2. 资源声纹识别数据声纹识实践参考声纹识别关心的“谁在说”,用于解决生物身份确认和识别;而语音识别关心的“说了什么”,用于解决对说话内容的识别。1. 理论声纹识别基础声纹识别概述声纹识别流程声纹识别算法2. 资源声纹识别数据声纹识实践参考语音识别从入门到放弃参考:语音识别(八)——声纹识别, 地理...

2020-08-20 15:17:14 1656

原创 kaldi 声纹识别·资源汇总

kaldi 基础kaldi 使用样例表kaldi 实战语音识别从入门到放弃Kaldi 中的声纹识别

2020-08-20 15:13:17 875

原创 统计服务器(ubuntu)上算法的运行时间

1. python程序运行时间:time.time()cpu执行时间:time.clock()2. shell2.1 用 date 相减#!/bin/bashstart=$(date +%s)sleep 5;end=$(date +%s)take=$(( end - start ))echo Time taken to execute commands is ${take} seconds.2.2time sh xxx.sh# 会返回3个时间数据# real 该命令的

2020-08-31 11:32:44 872

原创 Mac OS (迫于无奈)第一次安装brew的完整成功(采坑)过程

第一次安装brew使用官网的安装方法:结果报错:解决:接着直接打开`install.sh`:更换源:接着在终端使用`cd ~`进入home目录,执行`install.sh`,结果失败:看来是权限不够,咋办?使用官网的安装方法:/bin/bash -c "$(curl -fsSL https://raw.githubusercontent.com/Homebrew/install/master/install.sh)"结果报错:#!/usr/bin/rubySTDERR.print <&lt

2020-08-26 20:14:45 1770 2

原创 再看混淆矩阵(Confusion Matrix)

Why positive and negative?一直不明白为什么二分类问题要用”正例“和”负例“来代替两中类别,这样不是太局限了么,其实类别之间本质上并没有什么”肯定“/”否定“和”阴性“/”阳性“之分(这些都只是人类主观观点).一般来说,我们这样来进行约定:预计会发生的事件叫做阳/正(Positive),而把预计不会发生的事件叫做阴/负(Negative),比如:“狼来了”是正类别。“没有狼”是负类别。说白了,Positive 和 Negative 都是预测的结果。而事件本身是可能发

2020-08-26 14:12:06 768

原创 语音库的分析与评价

说话人识别(声纹识别)语音库的分析与评价,一般依据以下四个因素:1、说话人的数量和差异性2、说话人录音的次数及录音间隔3、语料的类型(固定的短语、带提示信息的数字、朗读句子、对话语音)4、录音设备,录制环境,传输信道影响因素选项人数录音方式多次重复录音、转录语音、录音回放语音采集设备宽带(麦克风)、窄带(电话、手机)录音环境安静、嘈杂录音内容数字串(普通话、英语、方言)、固定短文(普通话:60个音素和韵律分布平稳)、自由发言口音分布不同

2020-08-25 18:11:11 554

原创 声纹识别:如何获取最佳效果的阈值(通过计算ERR)?

摆在眼前的有几个问题:1、声纹识别与人脸识别的阈值获取方式一致么?(ROC曲线 or ERR曲线?)2、如何绘制 ROC 曲线?3、如何绘制 ERR 曲线?

2020-08-24 09:56:03 2227

原创 声纹识别概述(3)声纹识别系统

参考:声纹识别是个什么原理?

2020-08-20 18:20:04 6202

转载 kaldi 使用样例表

参考:Kaldi 使用,egs下通用样例及功能小结(很硬,慎入)

2020-08-20 15:08:59 281 2

原创 python 如果文件夹不存在则新建

每次想在新的位置输出文件时,都需要去自己新建几层的文件夹,这里记录一下如何让程序自动执行“若文件夹不存在则自动新建”:import osfolder = folder_pathif not os.path.exists(folder_path): #判断是否存在文件夹如果不存在则创建为文件夹 os.makedirs(folder_path)参考:python创建文件和文件夹...

2020-08-19 17:24:59 18660 1

原创 到后台服务的连接没能建立, 我们会继续尝试重连, 请检出网络连接...还有服务配置.

问题进入 jupyter notebook 以及切换不同的虚拟环境时,突然出现以下的报错:解决1、`pip install --upgrade --force-reinstall pyzmqCollecting pyzmq`没有用!2、更新ipython 以及 ipython kernelconda listpip install --upgrade ipykernel没有用,继续:pip install --upgrade ipython解决!...

2020-08-19 17:01:38 6388 11

原创 声纹识别概述(1)初识

声纹识别初识声纹声纹概念声纹识别的原理声纹识别的技术指标影响声纹识别水平的因素初识声纹声纹概念声纹(Voiceprint)是用电声学仪器现实的携带言语信息的声波频谱, 是由波长频率以及强度等百余种特征维度组成的生物特征,具有稳定性、可测量性、唯一性等特点。每个人的语音声学特征既有相对稳定性,又有变异性,不是一成不变的。这种变异可来自生理、病理、心理、模拟、伪装,也与环境干扰有关。声纹识别的原理人声差异的主要方面:共鸣方式特征:咽腔共鸣、鼻腔共鸣和口腔共鸣嗓音纯度特征:不同人的嗓音,纯度一般

2020-08-19 14:08:12 11485 3

原创 一文了解python 透视图(pandas.pivot_table)

文章目录pivot_table的参数理解pivot 与 groupby其它查看可视化保存先上图:pandas piviot_table cheet sheetor:先初略的了解透视图是用来干什么的,一句话:pivot_table 最大的意义便是将数据分组表示并进行聚合运算(结合上面的图来看)。如果你了解pandas的 groupby ,那你会发现他们基本是相通的。下面是正片:pivot_table的参数理解Signature:pd.pivot_table( data, val

2020-08-18 14:15:00 3978

原创 Mac终端如何使用linux系统下的tree命令?

网上的方法一般分为两种:使用 homebrew 安装 tree使用find命令模拟出tree命令的效果本文使用第二种方法(不想安装homebrew)。步骤:1、打开终端,进入home目录(cd ~),使用vim创建一个.bashrc文件,在里面添加一行代码:alias tree="find . -print | sed -e 's;[^/]*/;|____;g;s;____|; |;g'"(也有人说直接写到~/.bash_profile里,它们都是用来定义**用户环境变量**的,具体区别

2020-08-18 10:55:47 380

原创 Python返回列或行最大值对应的内容

文章目录现实场景数据方法现实场景有一堆数据,表示的是语音识别的效果(用相似度得分表示),需要找到每个测试人员最高分数对应的那个对象(判别结果)。数据data = {"tet":["Anna", "Anna", "Bob", "Bob"], "name":["Candy", "Duck", "Candy", "Duck" ], "scores":["254", "390", "450", "178"]}df = pd.DataFrame(data) df tet name scores

2020-08-18 10:10:01 3949

原创 使用Python合并多个wav音频

合并两个文件import waveinfiles = ["sound_1.wav", "sound_2.wav"]outfile = "sounds.wav"data= []for infile in infiles: w = wave.open(infile, 'rb') data.append( [w.getparams(), w.readframes(w.getnframes())] ) w.close()output = wave.open(outfile,

2020-08-17 18:55:03 9010 5

原创 如何复制ubuntu系统中用vim打开的文件中的内容

问题一般来说,用vim打开之后,想要选择并复制的时候会发现无法一次性复制(无法翻页)解决ubuntu默认安装的vim是不支持系统剪切、粘贴版的,需要执行以下安装:sudo apt-get install vim-gnome然后:使用 vim 打开文件;按 v 进入 vision 模式;光标置于首个字符处,按 G进入尾行;使用 +y 进行复制(系统剪切板);在外部CTRL+V即可粘贴过来;参考:点击但是依旧无法复制到Mac本地,因此最后将文件直接下载到本地,直接进行读取,再进行复制粘

2020-08-17 11:10:16 1258

原创 Linux 移动文件夹(目录)以及目录下的内容

linux中的移动使用mv指令。1. 移动文件单纯地移动某一个文件直接使用:mv <源文件名称/地址> <新文件名称/地址>,可以看出,这个方法也可以用来修改文件的名称。2. 移动文件夹(目录)下的内容如要移动某个文件夹下的某个内容:mv <目录地址1/xxx> <目录地址2>,即可移走xxx内容所有内容:mv <目录地址1/*> <目录地址2> ,或者直接使用mv <目录地址1/> <目录地址2&gt

2020-08-17 10:18:05 84580 3

原创 Linux/Ubuntu系统文件不同颜色所代表的的含义

文章目录颜色含义蓝色文件夹绿色可执行文件白色文本文件红色压缩文件黄色设备文件浅蓝色链接文件灰色其它文件

2020-08-13 15:26:42 1250

原创 Kaldi 测试报错:utils/split_scp.pl: Refusing to split data because number of speakers 2 is less than the

新建了一个文件夹robin存放两个人的音频数据(共2x10条wav音频)做测试,运行./test_cos.sh ~/kaldi/egs/sre16/v2/robin/sub_TIMIT_test在最后报错:sid/compute_vad_decision.sh: moving data_test/vad.scp to data_test/.backup utils/split_scp.pl: Refusing to split data because number of speakers 2 is le

2020-08-12 13:59:16 1201

原创 Kaldi 初识

文章目录参考:[语音识别] 11 从入门到精通

2020-08-12 09:21:51 306

原创 人脸识别模型评价指标:完整梳理

文章目录1. 人脸识别模式2. 二分类常用指标2.1 四个基础指标2.2 全项指标2.3 行指标2.4 列指标2.5 综合指标2.6 指标曲线3. 人脸识别指标1. 人脸识别模式首先,我们得弄清楚人脸识任务的常见两种模式:face verification (人脸验证)face identification (人脸识别)具体可以参考:而下面的指标,指的是第一种模式,也就是现在普遍应用在门禁、打卡等场景的人脸验证。2. 二分类常用指标人脸识别的指标离不开标准的二分类指标,其混淆矩阵如下所示

2020-08-10 16:44:01 10948 3

原创 如何clone一个github项目到服务器端?

以kaldi项目为例。方法一:使用 git clone在目标位置使用 git clone https://github.com/kaldi-asr/kaldi.git,然后使用cd kaldi即可进入下载完成的kaldi文件下方法二:scp 上传由于第一种方法经常遇到下载速度缓慢和终止等问题,可以选择直接先下载至本地,然后更改文件名称(去掉-master),然后在本地终端使用scp -r <所在地址> name@ip:<目标的地址>即可,其中 -r表示文件夹的上传,若是上传文

2020-08-10 14:51:34 3064

原创 最简教程:使用Python和opencv库绘制矩形框

话不多说,直接上代码:img1 = cv2.imread("xxx/face.jpg") # # ...cv2.rectangle(img1,(x1, y1), (x2, y2), (0, 0, 255), 2)cv2.imshow('face', img1)cv2.waitKey(0) # 让用户按下键盘任意一个键来退出此图片显示窗口(若没有图像会闪退)重点是cv2.rectangle的参数理解:首先 img1 表示用OpenCV读取进来的图片然后(x1, y1)和(x2, y2

2020-08-07 15:13:18 2237

原创 ubuntu 查看安装包的版本信息

ubuntu 查看安装包的版本信息:pkg-config --modversion xxx以 OpenCV 为例:# 查看 OpenCV 的信息pkg-config --modversion opencv2.4.9.1

2020-08-07 11:58:36 1843

原创 ubuntu查看图片命令

ubuntu查看图片使用eog:eog: linux的内置图片查看器 eye of gmoneeog camera.jpg

2020-08-07 11:56:23 4590 1

原创 更改了sshd_config如何立即刷新?

重启sshd服务即可!/etc/init.d/sshd restart ,或者:/etc/rc.d/init.d/sshd restart

2020-08-07 09:40:18 6033 1

原创 SyntaxError: Non-ASCII character ‘\xe7‘ in file camera.py on line 16

linux 上运行自己编写的程序出现报错:SyntaxError: Non-ASCII character '\xe7' in file camera.py on line 16, but no encoding declared; see http://python.org/dev/peps/pep-0263/ for details

2020-08-06 20:59:37 207

原创 Unable to init server: 无法连接: 拒绝连接

使用 `sudo gedit usb.rules报错:Failed to connect to Mir: Failed to connect to server socket: 没有那个文件或目录Unable to init server: 无法连接: 拒绝连接(gedit:5369): Gtk-WARNING **: cannot open display: 解决办法:使用sudo nano替代sudo gedit参考:点击...

2020-08-06 20:23:04 13147 2

原创 Linux 常见的目录路径表示

当前目录:./父级(上一级)目录:../上两级目录:../..根目录:/home目录:~

2020-08-06 14:34:53 7778

原创 Linux下修改文件夹的名称

输入:mv <文件名(改前)> <文件名(改后)>

2020-08-06 14:08:40 3492 1

原创 技术备用

未来可能用到的技术:FFmpeg 视频处理入门教程

2020-08-06 11:10:01 116

原创 初识shell以及推荐教程

shell是什么?shell和shell script?bash和shell的区别?shell和命令行界面(command line interface)的关系?Shell 是一个用 C 语言编写的程序,它是用户使用 Linux 的桥梁。shell是操作者与操作系统内核交互的接口,即我们常见的命令行界面(command line interface),它就叫做shell。shell分为:1.、交互式shell与非交互式shell:交互式在终端直接输入并得到执行;非交互式以shell script

2020-08-06 10:35:32 381

原创 创建的新环境中出现“加载插件 jupyter_nbextensions_configurator 失败”

证明需要在新环境中重新安装一下 jupyter_contrib_nbextensions 插件!附上链接:为Jupyter Notebook安装扩展并启用Configurator

2020-08-03 14:53:40 3582

原创 Mac上配置环境并运行第一个C++程序

ssh 远程连接服务器;vim 新建

2020-08-03 13:38:57 557 1

原创 jupyter notebook 突然无法在网页切换不同的虚拟环境

很神奇,突然发现在一个常用的虚拟环境中无法“服务—改变服务”中切换虚拟环境:而在base的环境下,却可以看到:难道是自己记忆错乱了——只能在base环境的界面下进行环境的切换?

2020-08-03 13:28:14 232

T-REC-P.862(PESQ) 源码 + PDF文档

客观语音质量评估(PESQ) 源码:pesqpar.h、pesqmod.c、pesqmain.c、pesqio.c、pesqdsp.c、pesq.h、dsp.h... 文档:P.862.pdf、P862E.doc

2020-10-20

初始版完整数据CK+表情识别数据集(Part3)

该资源为官网下载来的完整初始版数据集,不是网上已经被个人更改过的数据集! (由于超过1000M,分为三个部分来上传) CK+ 是表情识别领域最为常见的数据集之一!包括8种基本表情(包括中性的话)。 数据库包括123个subjects, 593 个 image sequence,每个image sequence的最后一张 Frame 都有action units 的label,而在这593个image sequence中,有327个sequence 有 emotion的 label。这个数据库是人脸表情识别中比较流行的一个数据库,很多文章都会用到这个数据做测试

2020-10-16

初始版完整数据CK+表情识别数据集(Part2)

该资源为官网下载来的完整初始版数据集,不是网上已经被个人更改过的数据集! (由于超过1000M,分为三个部分来上传) CK+ 是表情识别领域最为常见的数据集之一!包括8种基本表情(包括中性的话)。 数据库包括123个subjects, 593 个 image sequence,每个image sequence的最后一张 Frame 都有action units 的label,而在这593个image sequence中,有327个sequence 有 emotion的 label。这个数据库是人脸表情识别中比较流行的一个数据库,很多文章都会用到这个数据做测试

2020-10-16

初始版完整数据CK+表情识别数据集(Part1)

该资源为官网下载来的完整初始版数据集,不是网上已经被个人更改过的数据集! (由于超过1000M,分为三个部分来上传) CK+ 是表情识别领域最为常见的数据集之一!包括8种基本表情(包括中性的话)。 数据库包括123个subjects, 593 个 image sequence,每个image sequence的最后一张 Frame 都有action units 的label,而在这593个image sequence中,有327个sequence 有 emotion的 label。这个数据库是人脸表情识别中比较流行的一个数据库,很多文章都会用到这个数据做测试

2020-10-16

人脸表情识别数据集 jaffe.zip

人脸表情识别数据集 JAFFE JAFFE数据集一共有213张图像.选取了10名日本女学生,每个人做出7种表情.7种表情包括: Angry,Disgust,Fear,Happy,Sad,Surprise,Neutral.(愤怒,厌恶,恐惧,高兴,悲伤,惊讶,中性)

2020-10-16

清华大学《人工智能》课件.zip

第一章: 神奇的人工智能(王 东,4学时授课,2学时实验)[课堂(PDF)] [实验(PDF)] [源文件] 第二章: 认识你的脸 (汤志远,4学时授课,2学时实验)[课堂(PDF)] [实验(PDF)] [源文件] 第三章: 倾听你的声音 (汤志远,4学时授课,2学时实验)[课堂(PDF)] [实验(PDF)] [源文件] 第四章: 理解你的语言 (李蓝天,4学时授课,2学时实验)[课堂(PDF)] [实验(PDF)] [源文件] 第五章: 模仿你的行为 (李蓝天,4学时授课,2学时实验)[课堂(PDF)] [实验(PDF)] [源文件

2020-10-14

fer2013.csv

表情识别数据集:Fer2013,为CSV格式,可以用excel打开,但是比较缓慢,也可使用pandas读取,以及转化为图片格式

2020-05-24

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除