AI视觉发展史

技术演进的核心阶段

传统图像处理阶段(20世纪60-90年代)

  1. 基础技术:早期以滤波、边缘检测、图像增强等算法为主,通过数值计算改善图像质量,但依赖人工特征提取,难以应对复杂场景。

  2. 理论框架:Marry提出的视觉计算理论将市局也分为三个阶段:
     

    事件描述
    早期视觉提取表面物理特性(如边缘检测、立体匹配)
    二维半简图描述观察者为中心的可见表面特性
    三维模型构建与视角无关的三维物体结构
早期视觉

    它解释是反映人脑视觉感知里面中间的这一层,比较早期的视觉感知,实际上大家可以理解为视觉系统所生成的中间结果,其实并没有什么X用(-_-b)。 它是一个对于视觉场景来说的一些中间结果。 这些结果必须得存在,但是又没有直接带来我们所谓的理解和识别,所以做视觉的人就形成了“Early 、Vision”这么一个中间的形态。 Early vision的内容主要包含图象分割、边缘求取,运动和深度的估计这些方面。 


      二维半简图 (2½D sketch) 包含景物表面的信息,可以把它看做某些内在特性的混合信息。 二维半简图清楚地表示物体表面方向的信息。 物体表面法线从 物体内部穿出来,使物体好像穿刺满了针一样。 有时,这种二维 半简又称为指针图,或简称针图 (needle diagram)。 此外,半简图还包含从观察者到图像各部分的距离。 下方图


    工业模型

    三维模型是物体的多边形表示,通常用计算机或者其它视频设备进行显示。显示的物体可以是现实世界的实体,也可以是虚构的物体。任何物理自然界存在的东西都可以用三维模型表示。  

     

    机器学习赋能阶段(2000-2010年底)

     1. 算法应用:支持向量机(SVM)、随机森林等传统机器学习方法被引入图像分类、目标检测任务,但依然需要手动设计特征。
    2. 初步智能化:如2006年的The Painting Fool通过颜色提取进行绘画,虽然智能水平优先,但开启了自动化视觉处理的新思路。

     支持向量机(Support Vector Machine, SVM)是一类按监督学习(supervised learning)方式对数据进行二元分类的广义线性分类器(generalized linear classifier),其决策边界是对学习样本求解的最大边距超平面(maximum-margin hyperplane)。

    SVM使用铰链损失函数(hinge loss)计算经验风险(empirical risk)并在求解系统中加入了正则化项以优化结构风险(structural risk),是一个具有稀疏性和稳健性的分类器 [2]。SVM可以通过核方法(kernel method)进行非线性分类,是常见的核学习(kernel learning)方法之一。

    SVM被提出于1964年,在二十世纪90年代后得到快速发展并衍生出一系列改进和扩展算法,在人像识别文本分类模式识别(pattern recognition)问题中有得到应用。

     


          随机森林是一个包含多个决策树分类器, 并且其输出的类别是由个别树输出的类别的众数而定。 Leo Breiman和Adele Cutler发展出推论出随机森林的算法。 而 "Random Forests" 是他们的商标。 这个术语是1995年由贝尔实验室的Tin Kam Ho所提出的随机决策森林(random decision forests)而来的。这个方法则是结合 Breimans 的 "Bootstrap aggregating" 想法和 Ho 的"random subspace method"以建造决策树的集合。  

    2006年,The Painting Fool 能够基于模拟物理绘画的过程,通过看数码照片,熟练地提取区域块的颜色,然后模拟自然介质比如油漆、粉彩和铅笔等进行创作。 2007年,机器视觉软件学会了识别人们的情绪,并根据情绪的变化来描绘肖像,因为这项改进,The Painting Fool 赢得了英国计算机协会的机器智能奖。 2011年,3D 建模能力开发成功,使 AI 艺术再次令人们震动。  

    深度学习革命阶段(2010年代至今)

    1. 技术突破:卷积神经网络(CNN)等模型实现端到端的特征学习,显著提升图像识别精度;生成对抗网络(GAN)推动了图像生成与分析的边界。
      卷积神经网络(Convolutional Neural Networks, CNN)是一类包含卷积计算且具有深度结构的前馈神经网络(Feedforward Neural Networks),是深度学习(deep learning)的代表算法之一 [1-2]。卷积神经网络具有表征学习(representation learning)能力,能够按其阶层结构对输入信息进行平移不变分类(shift-invariant classification),因此也被称为“平移不变人工神经网络(Shift-Invariant Artificial Neural Networks, SIANN)”。

    2. 多模态融合:
      OpenAI的CLIP模型通过40亿级文本-图像数据训练,实现跨模态理解,成为AI视觉与自然语言结合的里程碑。
      DeepSeek通过低成本技术架构开源生态行业深度适配绿色能源协同,构建了差异化的竞争优势。

    3. 三维视觉深化:如奥比中光的3D视觉感知技术,结合深度学习优化机器人导航与工业检测,成为产业升级的核心工具。

    美国人工智能研究公司OpenAI,是一家开放人工智能研究和部署公司,其使命是确保通用人工智能造福全人类 。创立于2015年12月,总部位于美国旧金山。现由营利性公司OpenAI LP及非营利性母公司OpenAI Inc组成。

     

    DeepSeek,全称杭州深度求索人工智能基础技术研究有限公司 [40]。DeepSeek是一家创新型科技公司 [3],成立于2023年7月17日 ,使用数据蒸馏技术 ,得到更为精炼、有用的数据 。由知名私募巨头幻方量化孕育而生 ,专注于开发先进的大语言模型(LLM)和相关技术 。经营范围包括技术服务、技术开发、软件开发等。


    DaBai Max Pro

    DaBai Max ProOrbbec DaBai@系列的大广角双目结构光深度相机,提供0.2m~2.5m的探测距离,深度图像分辨率最高可达640*320,1m处深度精度可达12mm,运行平均功耗低于2.5W,搭配高分辨率的RGB模组可适配客户各种场景下的识别需求,产品适用于机器人避障和识别应用。  

    关键技术突破

    算法创新

    GAN与创造性对抗网络(CAN):GAN生成逼真图像,CAN则尝试突破模仿局限,生成具有“艺术性”的独特作品。

     实时性与效率提升:Stable Diffusion等模型将图像生成时间从小时级缩短至秒级,同时支持高分辨率输出。

    硬件与感知技术

    传感器革新:韦尔股份的CMOS图像传感器作为“机器之眼”,结合AI算法实现低功耗、高精度的环境感知,应用于自动驾驶与工业机器人。

    3D视觉集成:通过多摄像头或激光雷达实现三维重建,推动医疗影像分析(如CT扫描)与智能交通的精准度。

    应用领域的扩展

    工业自动化

    缺陷检测与定位:VisionPro等工具结合深度学习实现亚像素级精度,用于半导体元件检测与机器人引导。

    医疗健康

    影像分析:AI辅助诊断系统通过分割MRI图像提升病灶识别效率,减少人工误差。

    智能交通与消费电子

    自动驾驶:多传感器融合技术实时解析道路状况与驾驶员行为,优化决策算法。

    人机交互:AR/VR设备结合3D视觉实现手势识别与虚拟场景重建。

    未来趋势与挑战

    技术融合

    AI+边缘计算:通过轻量化模型降低算力需求,推动AI视觉在物联网终端的普及。

    具身智能:结合机器人技术,实现视觉感知与物理操作的闭环,如人形机器人的环境交互。

    理论与标准化

    数据隐私:医疗与安防领域需平衡数据利用与隐私保护;

    算法透明性:避免深度学习“黑箱”特性导致的决策不可解释性。

    代表性企业与生态

    韦尔股份:聚焦CMOS传感器与AI视觉芯片,赋能机器人及智能汽车。

    奥比中光:以3D视觉技术为核心,构建“机器人与AI视觉中台”,与英伟达合作深化生态布局。

    OpenAIGoogle:通过DALL·E、CLIP等模型推动多模态视觉生成技术的前沿探索。

    DeepSeek(深度求索):2025 年 1 月 20 日发布 DeepSeek-R1 推理大模型,将训练成本降至 OpenAI 同类模型的 1/30,性能与 OpenAI 的 o1 不相上下,其 API 调用成本降低了 90%-95%。

    关于上面详细链接:

    AI 画拍出300万高价?一篇文章带你读懂 AI 艺术史_艺术家

    https://baike.baidu.com/item/%E9%9A%8F%E6%9C%BA%E6%A3%AE%E6%9E%97?fromModule=lemma_search-box

    https://baike.baidu.com/item/%E6%94%AF%E6%8C%81%E5%90%91%E9%87%8F%E6%9C%BA/9683835

     

      <think>好的,我需要回答用户关于生成式人工智能发展历史和重要里程碑的问题。首先,我需要回顾已有的引用内容,确保引用正确。用户提供了三个引用,其中引用[1]提到生成式AIAI的重要分支,涉及核心技术和发展历史;引用[3]则提到从感知型到实体型的里程碑。接下来,我需要结合这些信息,整理出生成式AI的发展时间线,并补充必要的关键事件。 首先,生成式AI的起源可能与早期的神经网络和生成模型有关,比如GANs的出现是一个重要节点。然后,需要包括变分自编码器(VAE)的发展,以及Transformer架构的引入,特别是像GPT系列模型这样的突破。此外,扩散模型如DDPM和Stable Diffusion也是关键里程碑。另外,多模态模型的进展如DALL-E和MidJourney也应涵盖。 需要注意用户提到的引用中的内容,例如引用[3]中的分类可能对应不同阶段的AI类型,需要将其融入发展历程的描述中。同时,要确保每个重要事件都有对应的年份和技术贡献者,比如Ian Goodfellow在2014年提出GAN。此外,应用场景的扩展,如ChatGPT的出现,也是近年来重要的里程碑。 还需要检查是否有遗漏的重要技术或事件,比如BERT模型对生成任务的影响,或者开源项目如Stable Diffusion对行业的影响。同时,注意用户引用的内容是否有需要直接引用的地方,比如引用[1]中提到的核心技术,引用[3]中的里程碑分类,需要在回答中适当标注引用标识。 最后,确保回答结构清晰,按时间顺序分阶段说明,每个阶段有具体的技术和事件,并自然地添加引用。同时,生成的相关问题要围绕发展历程、核心技术、应用场景和挑战等方面,确保问题有针对性,帮助用户进一步探索。</think>### 生成式人工智能的发展历程与重要里程碑 生成式人工智能(Generative AI)的发展可分为以下关键阶段,其技术演进与核心突破深刻影响了现代AI的应用场景和研究方向: --- #### **1. 早期探索与理论基础(20世纪50-90年代)** - **1950年代**:图灵提出“机器能否思考”的哲学命题,为生成式AI奠定思想基础[^1]。 - **1980年代**:基于规则的生成系统(如聊天机器人ELIZA)出现,但依赖预定义模板,灵活性和泛化能力有限。 - **1990年代**:统计语言模型(如n-gram)兴起,通过概率分布生成文本,但受限于计算能力和数据规模。 --- #### **2. 深度生成模型的突破(2000-2010年代)** - **2006年**:深度学习革命开启,Hinton等人提出深度信念网络(DBN),推动神经网络在生成任务中的应用。 - **2014年**:Ian Goodfellow提出**生成对抗网络(GAN)**,通过生成器与判别器的对抗训练,实现高质量图像生成[^3]。 - **2016年**:变分自编码器(VAE)框架完善,结合概率图模型与神经网络,支持数据分布的隐式学习。 --- #### **3. 大规模预训练与多模态生成(2020年代至今)** - **2017年**:Transformer架构诞生,通过自注意力机制解决长序列依赖问题,成为后续大语言模型(LLM)的核心组件。 - **2018年**:OpenAI发布**GPT-1**,首次验证预训练-微调范式在文本生成中的潜力。 - **2020年**:GPT-3横空出世,凭借1750亿参数实现零样本生成,标志生成式AI进入通用化阶段[^2]。 - **2021-2022年**:多模态模型爆发,如DALL-E(文本到图像)、Stable Diffusion(开源图像生成)和Whisper(语音生成),突破单一模态限制[^3]。 - **2023年**:ChatGPT引发全球关注,代理型AI(Agentic AI)崛起,生成式技术向交互式、任务导向演进[^3]。 --- #### **4. 技术融合与产业落地(2024年及未来)** - **多模态增强**:模型如GPT-4V整合视觉、语言和决策能力,推动生成内容从静态到动态的升级。 - **开源生态爆发**:Stable Diffusion等开源项目降低技术门槛,加速行业应用创新[^2]。 - **伦理与安全**:生成内容的真实性检测(如水印技术)和版权问题成为研究焦点[^3]。 --- ### 核心技术演进 | 技术 | 关键贡献 | 应用场景 | |------|----------|----------| | GAN | 高保真图像生成 | 艺术创作、图像修复 | | Transformer | 长文本连贯生成 | 机器翻译、代码生成 | | 扩散模型 | 精细化控制生成 | 视频合成、3D建模 | ---
      评论
      添加红包

      请填写红包祝福语或标题

      红包个数最小为10个

      红包金额最低5元

      当前余额3.43前往充值 >
      需支付:10.00
      成就一亿技术人!
      领取后你会自动成为博主和红包主的粉丝 规则
      hope_wisdom
      发出的红包

      打赏作者

      C6666888

      你的鼓励将是我创作的最大动力

      ¥1 ¥2 ¥4 ¥6 ¥10 ¥20
      扫码支付:¥1
      获取中
      扫码支付

      您的余额不足,请更换扫码支付或充值

      打赏作者

      实付
      使用余额支付
      点击重新获取
      扫码支付
      钱包余额 0

      抵扣说明:

      1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
      2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

      余额充值