计算机视觉入门（包含论文学习网址）

最新推荐文章于 2025-04-17 15:42:58 发布

竹篓有个天

最新推荐文章于 2025-04-17 15:42:58 发布

阅读量683

点赞数

分类专栏：深度学习机器学习文章标签：计算机视觉

本文链接：https://blog.csdn.net/OpenSceneGraph/article/details/103324199

版权

深度学习同时被 2 个专栏收录

36 篇文章

订阅专栏

机器学习

1 篇文章

订阅专栏

阅读了微信公众号的一些文章并总结。

谷歌学术镜像：http://scholar.hedasudi.com/
学习网址：（可以改网址的年代，可以先观看视频，再看PPT和文章）
http://kesen.realtimerendering.com/siga2019Papers.htm
http://kesen.realtimerendering.com/sca2019Papers.htm
http://kesen.realtimerendering.com/eg2009Papers.htm
http://kesen.realtimerendering.com/egsr2019Papers.htm
http://kesen.realtimerendering.com/

20191119

/1 语义分割（同一类像素归为一类）；实例分割（更细，如不同的人归为不同的类）
patch classification 切成块给神经网络模型，使用全连接层对像素分类
FCN 全卷积神经网络删除了全连接层，用卷积分类 pooling扩大感受野，整合上下文context信息
encoder-decoder(基于FCN) 中间的shortcut connection（捷径连接/跨层连接 eg：U-net）
空洞卷积代替了pooling，不仅扩大感受野，还增强分辨率
条件随机场（CRFs）后处理（DeepLab系列文章）
方法:FCN、SegNet、Dilated Convolutions、DeepLab v1&v2、DefineNet、
PSPNet、Large Kernel Matters、DeepLab v3

/2 自然语言处理（NLP）输入：书面/口头形式阅读和理解语言
方向大致有：句法语义分析信息抽取文本挖掘机器翻译信息检索问答对话

/3 傅里叶变换->Gabor变换->小波变换
Gabor变换:FT只能全局（整个时间域），为了提取局部信息，引入时间局部化的窗函数（高斯函数）；
把信号划分为多个小的时间间隔，用FT分析，以确定信号在该间隔内存在频率
处理方法：对f(t)加一个滑动窗，再进行FT

20191120
/2 卷积的深层含义所谓两个函数的卷积，本质上就是先将一个函数翻转，然后进行滑动叠加。在连续情况下，叠加指的是对两个函数的乘积求积分，在离散情况下就是加权求和，为简单起见就统一称为叠加。
/3 https://github.com/extreme-assistant/cvpr2019 CVPR2019论文盘点等
20191123
/1 OI Wiki ：在这里获取关于编程竞赛 (competitive programming) 有趣又实用的知识，我们为大家准备了竞赛中的基础知识、常见题型、解题思路以及常用工具等内容，帮助大家更快速深入地学习编程竞赛。
/2 训练GANs一年我学到的10个教训
GANs训练稳定性很差，StyleGAN和BigGAN可以。提供了一些有建设性意见的方法
https://arxiv.org/abs/1811.09567（GAN的损失函数挑选）

20191127

1.深度学习入门一

学习：一个系统通过某个过程改变性能。

机器学习：对于计算机系统而言，通过运用数据和某种特定的方法来提升机器系统的性能。

学习的四个象限：可/不可统计；可/不可推理。

机器学习就是从可统计到不可统计；神经网络是由可推理到不可推理。

机器学习方法论：

/1 端到端：输入原始数据，输出最终目标，中间过程不可知。如像素到指令。

深度学习：将机器学习时抓取特征的麻烦转化为特征表示学习，但需要大数据。即大数据+复杂系统。
2.深度学习入门二
人类”奇点“时刻会临近，即人类与其他物种（物体）的相互融合；人工智能：硅基智能与碳基智能兼容。
深度学习是高度数据依赖型的算法，性能通常随着数据量的增加而不断增强，即它的扩展性显著优于传统的机器学习算法。
如果训练数据较少，则不一定。作为复杂系统代表的深度学习算法，只要数据量足够多，才能通过训练，在深度神经网络中，”恰如其分“的将把蕴含在数据中的复杂模式表征出来。
机器学习、深度学习，都是面对过去，找到规律（描述性分析）；面向未来，找到趋势（预测性分析）。

即归纳、演绎。
机器学习就是在数据对象中通过统计/推理的方法，寻找一个适用特定输入和预期输出的功能函数。
机器学习就是做好：寻找一系列函数实现预期功能（建模），寻找合理评价标准（评价），找到性能最佳的函数（优化）。

20191129
1. CV入门一：opencv及计算机视觉定义
计算机视觉：用计算机代替人眼去对目标识别、分类、理解等行为。
机器学习领域：计算机视觉、自然语言处理、语音识别。
计算机视觉领域：目标检测、人脸识别、视频分割等。
传统的手工提取特征：HOG；HOF；SIFT；------玻尔兹曼机；人工神经网络；----卷积神经网路。
入门基础：python+opencv。
图像的基础是像素。

2. CV入门二：python和图像处理
学习工具：TensorFlow---Python
基本数据类型：数值型、布尔型、字符型。
基本容器：列表、字典、元组
Numpy：基于高维向量对象。
Scipy：基于numpy。
**图像处理知识框架：
像素操作、图像变换、像素统计、色彩空间、卷积图像处理、形态学处理、图像分割、特征提取、二值图像（图像分割）、对象识别与匹配

3.CV进阶三：图像处理基本算法、图像处理实践
图像处理基本算法：
分辨率降低、单色处理、滤波处理
图像处理实践：
根据卷积核的不同，效果不同。可以实现不变、锐化、边缘检测、高斯模糊、浮雕....

4.CV进阶四：灰度处理
逆反；对比度处理：增大、减小、改善、增强；局部滤波处理；直方图；二值化方法步骤...

5.深度学习的感受野
卷积神经网络的每一层输出的特征图上的像素点在原图像映射的区域大小。
第一层卷积层的输出特征图像素的感受野的大小就等于等于卷积层滤波器的大小；
然后其继续进行前向传播，这样的话，后面深层的卷积层感受野大小就和之前所有网络层的滤波器大小和步长有关系了，在计算的时候，忽略图像Padding的大小。
网络中的每一个层有一个strides，该strides是之前所有层stride的乘积。
感受野大小的计算采用从深层到前层的方式计算，即先计算最深层在前一层上的感受野，然后逐渐反馈到第一层。
查资料知，感受野大小的计算采用从深层到前层的方式计算，即先计算最深层在前一层上的感受野，然后逐渐反馈到第一层。

/2 分为治之：（还原论、追本溯源）一个复杂系统由许多简单系统叠加而成：线性系统。