视频处理_整理

最新推荐文章于 2024-09-18 16:54:42 发布

情绪识别博士

最新推荐文章于 2024-09-18 16:54:42 发布

阅读量666

点赞数

分类专栏：理论基础文章标签：计算机视觉

本文链接：https://blog.csdn.net/qq_39495934/article/details/112257738

版权

理论基础专栏收录该内容

11 篇文章 1 订阅

订阅专栏

视频处理分为图像处理和声音处理两部分
影响图像质量的因素：1. 光照强度。2. 光照方向。 3. 目标距离。 4. 焦距。 5. 采样率。 6. 曝光时间和增益。7.暗漏电流。 8. 分辨率（像素数量）

在这里插入图片描述

图像
常见颜色空间有：
RBG：模型容易理解，连续变换颜色时不直观
（红red，绿green，蓝blue）三原色：
RGB取值范围[[0,255],[0,255],[0,255]]

HSV 是为了数字化图像提取出来的，不能很好的表示人眼解释图像过程
H（Hue）色相：[0,360]
S (Saturation)饱和度，即色彩纯净度，0饱和度为白色
V（Value/Brightness）：明度 0明度为纯黑色
在opencv中
H = [0,179]
S = [0,255]
V = [0,255]
Lab: 颜色之间的欧式距离有具体含义—距离越大，人眼感官两种颜色差距越远
L通道：像素亮度，上白下黑，中间灰
a 通道：左绿右红
b 通道：一端纯蓝，一端纯黄
灰度图：每个像素[0,255]
根据人眼敏感度，把RGB图片转换为灰度图，不是简单把RGB每个通道取平均值
而是：
Y = 0.299R + 0.587G + 0.114*B

在这里插入图片描述
Tensor 的
input 图像参数 shape为[batch, in_height, in_width, in_channels], 具体含义是[训练时的一个batch的图片数量，图片高度，图片宽度，图像通道数]
filter 卷积核 shape[filter_height, filter_width, in_channels, out_channels], 具体含义是[卷积核的高度，卷积核的宽度，图像通道数，卷积核个数]。
Padding string类型的量，’SAME’, ’VALID’

声音
声音以具有诸如频率，宽带，分贝等参数的音频信号的形式表示，典型的音频信号可以表示为幅度和时间的函数
在这里插入图片描述

librosa
他是一个python模块，通常用于分析音频信号，更倾向于音乐。
提取Log-Mel Spectrogram 特征
目前在语音识别和环境识别中很常用的一个特征。http://librosa.github.io/librosa/feature.html

Mel scale 梅尔标度
人耳对声音频率的感知度是线性关系。在梅尔标度下。成log的关系
在这里插入图片描述
当频率较小时，mel随Hz变化较快；当频率较大时，mel的上升缓慢。说明人耳对低频音调感知灵敏，高频迟钝。

梅尔频谱上做倒谱分析（取对数，做DCT变换）就得到了梅尔倒谱。
本程序主要有四个函数，它们分别是：
audio2frame:将音频转换成帧矩阵
deframesignal:对每一帧做一个消除关联的变换
spectrum_magnitude:计算每一帧傅立叶变换以后的幅度
spectrum_power:计算每一帧傅立叶变换以后的功率谱
log_spectrum_power:计算每一帧傅立叶变换以后的对数功率谱
pre_emphasis:对原始信号进行预加重处理

这里使用的图片参考与
1.https://blog.csdn.net/wsp_1138886114
2.https://blog.csdn.net/qq_39495934
3.https://blog.csdn.net/zouxy09