视频处理_整理

视频处理分为图像处理和声音处理两部分
影响图像质量的因素:1. 光照强度。2. 光照方向。 3. 目标距离。 4. 焦距。 5. 采样率。 6. 曝光时间和增益。7.暗漏电流。 8. 分辨率(像素数量)

在这里插入图片描述

图像
常见颜色空间有:
RBG:模型容易理解,连续变换颜色时不直观
(红red,绿green, 蓝blue)三原色:
RGB取值范围[[0,255],[0,255],[0,255]]

HSV 是为了数字化图像提取出来的,不能很好的表示人眼解释图像过程
H(Hue)色相:[0,360]
S (Saturation)饱和度,即色彩纯净度,0饱和度为白色
V(Value/Brightness):明度 0明度为纯黑色
在opencv中
H = [0,179]
S = [0,255]
V = [0,255]
Lab: 颜色之间的欧式距离有具体含义—距离越大,人眼感官两种颜色差距越远
L通道: 像素亮度,上白下黑,中间灰
a 通道:左绿 右红
b 通道: 一端纯蓝,一端纯黄
灰度图:每个像素[0,255]
根据人眼敏感度,把RGB图片转换为灰度图,不是简单把RGB每个通道取平均值
而是:
Y = 0.299R + 0.587G + 0.114*B

在这里插入图片描述
Tensor 的
input 图像参数 shape为[batch, in_height, in_width, in_channels], 具体含义是[训练时的一个batch的图片数量,图片高度,图片宽度,图像通道数]
filter 卷积核 shape[filter_height, filter_width, in_channels, out_channels], 具体含义是[卷积核的高度,卷积核的宽度,图像通道数,卷积核个数]。
Padding string类型的量,’SAME’, ’VALID’

声音
声音以具有诸如频率,宽带,分贝等参数的音频信号的形式表示,典型的音频信号可以表示为幅度和时间的函数
在这里插入图片描述

  1. librosa
    他是一个python模块,通常用于分析音频信号,更倾向于音乐。
    提取Log-Mel Spectrogram 特征
    目前在语音识别和环境识别中很常用的一个特征。http://librosa.github.io/librosa/feature.html

Mel scale 梅尔标度
人耳对声音频率的感知度是线性关系。在梅尔标度下。成log的关系
在这里插入图片描述
当频率较小时,mel随Hz变化较快;当频率较大时,mel的上升缓慢。说明人耳对低频音调感知灵敏,高频迟钝。

梅尔频谱上做倒谱分析(取对数,做DCT变换)就得到了梅尔倒谱。
本程序主要有四个函数,它们分别是:
audio2frame:将音频转换成帧矩阵
deframesignal:对每一帧做一个消除关联的变换
spectrum_magnitude:计算每一帧傅立叶变换以后的幅度
spectrum_power:计算每一帧傅立叶变换以后的功率谱
log_spectrum_power:计算每一帧傅立叶变换以后的对数功率谱
pre_emphasis:对原始信号进行预加重处理

这里使用的图片参考与
1.https://blog.csdn.net/wsp_1138886114
2.https://blog.csdn.net/qq_39495934
3.https://blog.csdn.net/zouxy09

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值