计算机视听觉
文章平均质量分 79
rocketeerLi
自由地努力着
展开
-
利用 MSR Identity Toolkit v1.0 中的 GMM-UBM 做语音说话人确认
最近开始搞毕设,刚完成一个小任务,趁着有空,整理一下这学期的实验。时间有点久远了,害怕时间再长一些,自己真的就全忘光了。本实验很大一部分参考了班级里一位萌妹子的博客,在这里贴一下地址:hit说话人确认实验实验中,就写了一些生成配置文件的 python 代码,关于说话人确认部分的代码基本没写;因此感觉,这个实验,有点,,,。。。emm,主要还是自己事情有点多,直接选了个最简单的。原创 2019-12-06 21:59:38 · 1976 阅读 · 6 评论 -
快速双边滤波——Python实现
课程的最后一个实验是处理雀斑,网上查找了很多方法,最后我选择了快速双边滤波。但是实验又不能直接调用 opencv 的库,因此,我参照了这个博客,将用 C 写的快速双边滤波改用 Python 重新写了一遍。快速双边滤波是啥呢,官方滴说,它是一种非线性的滤波方法。它最大的特点就是既使用了颜色的相似度,又利用了空间的距离相似度。也就是原创 2019-02-26 14:30:00 · 10319 阅读 · 7 评论 -
快速中值滤波——Python实现
中值滤波是空域中常用的一种滤波方式,是一种非线性的滤波。它的原理就是将窗口像素排序,取中值,然后移动窗口,不断重复取中值的过程。快速中值滤波是中值滤波的优化版,它利用了窗口每次平移时,没有移出窗口的像素点还是排好序的,因此,只需要把新加入的像素点插入到其中即可完成排序。此外,由于我们并不需要一个完整的排序数列, 只需要找到中值就可以了。原创 2019-02-28 11:31:44 · 6934 阅读 · 0 评论 -
空域中图像处理算子
空域也叫空间域,是一种像素级上的操作,即直接对图像上的像素值进行增加或减少。空域滤波按照过滤频率的高低,分为平滑(模糊)和锐化,平滑对应低通滤波;锐化对应高通滤波。也可以按照滤波的算法,分为线性滤波和非线性滤波,线性滤波就是滤波过程中,对像素的处理是线性的,如加减乘除等;而非线性滤波就是像素的处理是非线性的,如取最大值、取中值等。原创 2019-02-27 23:33:14 · 2572 阅读 · 1 评论 -
解决利用 opencv 调亮图片时,颜色改变问题
今天写代码时,需要将图片的亮度进行调整,我是直接在读出来的 R、G、B三个通道上分别增加了一个固定的值。由于颜色值是在[0, 255]区间内的,正常来讲,即使超出了这个范围,利用 opencv 进行展示之前的合并中,也是会自动截断的。但是还是出现了颜色改变的问题。代码如下:原创 2018-12-10 22:45:54 · 2349 阅读 · 1 评论 -
图像颜色空间转换—— Python 实现
颜色空间指的是组织颜色的特定方式。我们知道,一种颜色可以由 红、绿、蓝 三种颜色组合出来,这里的 红、绿、蓝 三原色就是一种颜色模型。而这种由三原色组织颜色的方法就是一种颜色空间。任何一种颜色,在颜色空间中,都可以通过一个函数表示出来,在 RGB 模型中,函数的参数就是 R、G、B 三原色。当然,同一种颜色,在不同的颜色空间中,由于侧重点不同,表现出来的色彩是不一样的。通常的图片是采用的 RGB 三原色来表示的,所以,现在,我们的目的就是将同一幅图片转换成用其他颜色空间来表示。原创 2018-12-09 17:10:48 · 5146 阅读 · 0 评论 -
Python读取并解析 bmp 文件
由于要开始学习图像方面的知识,读写图片是难免的。对图片的结构有一定的了解对理解图片存储还是很有帮助的。由于实验的代码是用 python 写的,因此读取文件就直接使用 python 了,虽然用 C 来读写文件更有效率,但我个人感觉 python 也没有很慢。下面来看一下bmp 文件结构和读取 bmp 文件的过程。原创 2018-12-09 17:02:33 · 29246 阅读 · 8 评论 -
DTW 算法的实时语音识别——命令词识别(Python 实现)
这是我们计算机视听觉的第三个实验,也是本学期语音部分的最后一个实验,大概花了两天才写完。上个实验做的是语音编码问题,这个实验是语音识别的事,感觉处理语音还是比较有意思的。原创 2018-11-29 20:27:07 · 12698 阅读 · 15 评论 -
语音差分编码(DPCM)的实现与改进——Python实现
这是视听觉信号处理的第二个实验——语音差分编码(DPCM)。总体来讲,思路上还是比较简单的,很容易理解。如果编程能力好的话,相信很快就能完成。奈何我太菜了,写了几个晚上才算搞定。做了点扩展,添加了自己神奇的想法,在这里记录一下。先附上代码地址:原创 2018-11-13 20:15:56 · 3428 阅读 · 1 评论 -
双门限法语音端点检测(Python实现)
花了几天时间写完了第一个视听觉信号处理的实验,其实还挺简单的,在这里分享一下。本文介绍一下利用双门限法进行语音端点检测的方法,该方法主要利用了语音的短时能量和短时过零率。端点检测就是在一段包含语音的信号中,准确地确定语音的起始点和终止点,将语音段和非语音段区分开。我们知道,一段语音中,有静音部分和浊音部分,静音部分包括清音、噪音和无声(噪音可以归结到无声中),浊音部分和清音才是我们需要听的语音,因此,可以说只有这两部分才是对我们有用的语音。原创 2018-10-23 19:34:22 · 21547 阅读 · 25 评论 -
语音短时过零率计算——Python实现
上一篇文章介绍了语音短时能量,这篇介绍一下语音的短时过零率。短时过零率也是一个比较基础的语音时域特征,下面就来介绍一下。短时过零率就是单位时间穿过坐标系横轴的次数,计算公式如下:原创 2018-10-23 15:15:05 · 10124 阅读 · 13 评论 -
语音短时能量计算——Python实现
刚开始学习计算机视听觉,第一个实验是端点检测算法。这个算法实现起来还是比较简单的,主要是该算法利用到的两个数据——语音短时能量和短时过零率。今天先分享一下我计算短时能量的方法。语音短时能量,顾名思义就是计算较短时间内的语音能量。这里的较短时间,通常指的是一帧。也就是说,一帧时间内的语音能量就是短时能量,语音的短时能量就是将语音中每一帧的短时能量都计算出来,然后我们就可以利用这个短时能量数组做很多事情了。通常而言,短时能量用途有以下几个方面:原创 2018-10-22 13:11:59 · 17810 阅读 · 4 评论