AlexNet中的图片增强--基于PCA的RGB三通道色彩抖动

最新推荐文章于 2024-07-08 20:39:05 发布

码程序的JERRY

最新推荐文章于 2024-07-08 20:39:05 发布

阅读量3.5k

点赞数 9

分类专栏： machine learning

本文链接：https://blog.csdn.net/CSDNJERRYYAO/article/details/120068107

版权

在阅读完AlexNet的论文之后有感而发。

这篇论文开创性地使用了很多卷积神经网络中结构，小技巧，非常建议大家去精读一遍，这篇神经网络奠基级别的论文。

概要

在AlexNet中介绍了一种基于PCA的色彩增强的方法，效果就是图片的明度（明亮程度）会发生整体的变化，并且没有发生图片结构的改变或色差的明显变化。

效果如下图:
效果图

这里我简要地说一下论文中的实现方法：
实现步骤：

将图片按照RGB三通道进行normalization处理，均值为0，方差为1。
值得一提的是，按照RGB三通道进行处理，因为我们进行的是色彩增强，在RGB 三通道的图片中，决定图像色彩的是RGB之间的相对关系，我们不能改变三通道内部的像素值分布。
将图片按照channel展平成大小为(?, 3)的array
求上述array的协方差矩阵
对协方差矩阵进行特征分解
下式的 $\mathbf{p}$ 是特征向量， $\lambda$ 是特征值, $\alpha$ 即为我们添加的抖动系数
$\begin{bmatrix}\mathbf{p}_1 & \mathbf{p}_2 & \mathbf{p}_3\end{bmatrix} \begin{bmatrix}\alpha_1\lambda_1 & \alpha_2\lambda_2 & \alpha_3\lambda_3 \end{bmatrix}^T$

关注

专栏目录