计算机视觉（Computer Vision）知识点

夫子耶

已于 2024-04-07 17:57:45 修改

阅读量611

点赞数 5

分类专栏：知识点文章标签：自然语言处理计算机视觉人工智能 ai 面试

于 2024-04-07 12:50:01 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/fuziqp/article/details/137459721

版权

知识点专栏收录该内容

6 篇文章 0 订阅

订阅专栏

本文总结了计算机视觉的基本概念，包括卷积神经网络在图像处理中的应用，以及文档处理中的OCR技术难点与策略。重点介绍了池化层、最大池化、平均池化、汇总池和全连接层的作用。

摘要由CSDN通过智能技术生成

计算机视觉Computer Vision 知识点

计算机视觉
1. 文档处理涉及哪些类型，是否需要ocr识别某类文档，用ocr识别过程中有什么难点和问题，相应的处理策略有哪些？
2. 池化层是什么？
3. 最大池化是什么?
4. 什么是平均池化?
5. 汇总池是什么?
6. 完全连接层是什么?

知识点)

计算机视觉

对计算机视觉相关的知识点进行总结

计算机视觉（CV）是指使用计算机来模拟人类视觉系统的功能，包括图像和视频的处理、分析和理解。它涉及到计算机图形学、图像处理、模式识别、机器学习、人工智能等多个领域。

计算机视觉的发展得益于深度学习技术的兴起，特别是卷积神经网络（CNN）的出现，使得计算机视觉的性能得到了大幅提升。

卷积神经网络是一种特殊的神经网络，它专门用于处理图像数据。卷积神经网络通过使用卷积层和池化层来提取图像的特征，然后使用全连接层来进行分类或回归。

除了卷积神经网络，计算机视觉中还使用了其他的技术，如支持向量机（SVM）、决策树、随机森林、K 最近邻（KNN）等。这些技术可以用于图像分类、目标检测、图像分割等任务。

计算机视觉的发展还面临着一些挑战，如数据隐私、数据标注、模型解释性等。为了应对这些挑战，研究人员正在探索新的技术和方法，如对抗学习、生成对抗网络（GAN）、强化学习等。

1. 文档处理涉及哪些类型，是否需要ocr识别某类文档，用ocr识别过程中有什么难点和问题，相应的处理策略有哪些？

文档处理涉及的类型：

文本提取（命名实体识别），从文本数据中提出关键词或关键语句；
关系抽取，对文本数据提取的实体进行关系识别；
文本分类，将文本数据划分为不同的类别；
文本生成，通过提示词或者文本数据，生成指定内容的文本或者提炼后的文本；
文本翻译，将文本数据从一种语言，翻译成另一种语言的文本数据；
光学字符识别OCR，将图片或者扫描文档中的字符信息，转化成可编辑的文本

OCR处理的文本类型：
7. 印刷体文本；2. 手写图片文本；3. 文档扫描文本；4. 表格文本；5. 票据文本；6. 图像文本

难点和问题：
8. 图片文字的清晰度；2. 图片、长序列、表格的文字排列；3. 无关字符的影响

处理策略：

对图片进行处理，提高清晰度（对cv领域的技术了解不太多）；2. 通过nlp的技术对文本进行序列标注（准确的上下文识别分析这种）3.人工的去处理校对

2. 池化层是什么？

池化层在图像的预处理中起着至关重要的作用。用于减少特征图的大小和参数数量的一种操作。

它通常被应用于卷积层之后，通过对特征图进行下采样来减少特征图的大小，同时保持图像的主要特征。

池化层的主要作用是减少模型的计算量和参数数量，从而提高模型的效率和泛化能力。

常见的池化层包括最大池化层和平均池化层。池化层的参数通常是超参数，需要根据具体的任务和数据集进行调整。当图像太大时，池化层会减少参数数量。合并是从先前图层获得的图像的“缩小比例”。

3. 最大池化是什么?

最大池化层通过选择每个特征图中的最大值来减少特征图的大小，最大池化是基于样本的离散过程，其主要目标是减小其维数，缩小输入表示的比例。并且允许对包含在分区中的子区域中的特征进行假设。

4. 什么是平均池化?

平均池化层通过计算每个特征图中的平均值来减少特征图的大小，缩减将通过将输入特征图中的每个子区域的像素值矩形池区域来通过平均池执行，并且将计算特征图中对应子区域的平均值。

5. 汇总池是什么?

汇总池可以减少特征图的大小和参数数量，将输入特征图中的每个子区域的像素值求和，并将求和结果作为输出特征图中对应子区域的值。

6. 完全连接层是什么?

完全连接层（Fully Connected Layer）是指在神经网络中，将上一层的每个神经元与下一层的每个神经元都进行连接的层。

完全连接层通常被用作分类器或回归器，它可以将输入特征映射到输出类别（/向量）上，从而实现对输入数据的分类或回归。

完全连接层的参数数量通常比较多，因此需要使用正则化技术来减少过拟合。它将通过网络将输出转换为所需的类数。

关注

5
点赞
踩
10

收藏

觉得还不错? 一键收藏
0
评论
计算机视觉（Computer Vision）知识点

对计算机视觉相关的知识点进行总结计算机视觉（CV）是指使用计算机来模拟人类视觉系统的功能，包括图像和视频的处理、分析和理解。它涉及到计算机图形学、图像处理、模式识别、机器学习、人工智能等多个领域。
复制链接

扫一扫

专栏目录

夫子耶 CSDN认证博客专家 CSDN认证企业博客

码龄5年

23: 原创

54万+: 周排名

7万+: 总排名

7万+: 访问

: 等级

502: 积分

139: 粉丝

263: 获赞

24: 评论

455: 收藏

私信

关注

热门文章

分类专栏

最新评论

机器学习（Machine Learning）知识点
白话机器学习: 写的非常详细，是一篇优质博客，干货满满，让我有了全新的认识，感谢博主分享，让我学到了很多，支持支持。
自然语言处理技术（Natural Language Processing）知识点
CSDN-Ada助手: 恭喜你在博客领域的持续努力，第20篇博客“自然语言处理技术（Natural Language Processing）知识点”内容丰富、观点独到，让读者受益匪浅。希望你能继续保持创作的热情和耐心，探索更多有趣的主题，为读者呈现更多精彩的内容。期待你在未来的创作中不断进步，为自己的博客事业开拓更广阔的天地。祝一切顺利！
数据处理知识点
CSDN-Ada助手: 恭喜用户发布了第16篇博客“数据处理知识点”！看到您对数据处理有如此深入的了解，真是让人佩服。希望您能继续保持创作的热情，不断分享自己的见解和经验。或许下一步可以考虑深入探讨某一具体数据处理技术或者案例分析，让读者更加深入地了解数据处理的实践应用。期待您的下一篇作品！
机器学习（Machine Learning）知识点
CSDN-Ada助手: 恭喜用户发布了新的博客文章“机器学习知识点”！不断分享知识是非常可贵的，希望您能继续坚持创作，让更多人受益。接下来，可以考虑深入探讨某个机器学习算法的原理及应用，或者分享自己在实践中遇到的挑战和解决方案，这样能让读者更深入地了解相关内容。期待您的更多精彩文章！愿您在学习和分享的道路上越走越远！
LLM(large language model)知识点
CSDN-Ada助手: 恭喜您写了第18篇博客“LLM(large language model)知识点”！不断分享知识，让读者受益匪浅。接下来，或许您可以考虑深入探讨LLM在各个领域的应用案例，或者结合实际项目经验分享一些实用的技巧和经验，相信会更加丰富和有趣。期待您更多的精彩内容！

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。