递归皮层网络RCN识别文本CAPTCHAS的Science论文基础知识和译文 (公号回复“递归皮层网络”可下载PDF典藏版资料)
原创: 秦陇纪 数据简化DataSimp 今天
数据简化DataSimp导读:硅谷初创公司Vicarious AI的Science论文《高数据效率训练的和文本CAPTCHAs (CompletelyAutomated Public Turing Test to Tell Computers and Humans Apart全自动区分计算机和人类的图灵测试)断字的生成视觉模型(A generative vision model thattrains with high data efficiency and breaks text-based CAPTCHAs)》:论文背景基础知识、VicariousAI初创公司简介、论文译文概述及相关程序等。如有错误或疏漏(包括原文错误)等,请联系DataSimp@126.com沟通、指正,文末有作者微信、实名制群联系方式,欢迎留言、转发。
概率生成模型PGM递归皮层网络RCN识别文本CAPTCHAS的Science论文 (35530字)
目录
A论文背景基础知识和公司简介 (7515字)
A.1论文相关背景基础知识
A.2 硅谷初创公司VicariousAI简介
B递归皮层网络RCN识别文本CAPTCHAs的Science论文翻译(14372字)
B.1 递归皮质网络Recursivecortical network
B.2 表征Representation
B.3 推理Inference
B.4 学习Learning
B.5 结论Results
B.6 讨论Discussion
B.7 方法总结Methodssummary
B.8 参考文献和笔记REFERENCESAND NOTES
参考文献(1068字)Appx(626字).数据简化DataSimp社区简介
学术期刊《Science(科学)》2017年10月26日刊发硅谷知名人工智能创业公司Vicarious AI(间接替代人工智能)的一项最新研究论文《A generative vision model that trains with high data efficiency andbreaks text-based CAPTCHAs》。作者在论文中提出了一个不同于深度学习的模型——递归皮质网络(Recursive Cortical Network),突破了基于文本的全自动区分计算机和人类的图灵测试CAPTCHA。和主流的深度学习算法相比,Vicarious AI的递归皮质网络在场景文字识别中体现了300倍的训练数据使用效率。该项研究通过提出一种新型生成式组成模型(generative compositional model):递归皮层网络Recursive Cortical Network(RCN),使用小样本学习,在CAPTCHA上获得突破性成果。RCN的成功表明,在推动人工智能发展的道路上,生成式组成模型(GenerativeCompositional Model),特别是上下文相关概率语法图模型(Context CorrelationProbability Grammar Graph model)和自底向上(bottom-up)/自顶向下(top-down)联合推理算法(Reasoning Algorithm),取得了一个重要的阶段性成果。
Vicarious AI(间接替代人工智能)公司的联合创始人George认为CAPTCHA是一个“完全AI问题”。如果完全地解决了这种类型的问题,那就得到了通用人工智能。为了能彻底识别CAPTCHA,模型必须能识别任何文本。不只是验证码,即使有人在纸上随便写什么形式的字体(就像PPT里的艺术字一样),模型也需要识别出来。想要研究CAPTCHA的科学家不止George团队,很多科学家都意识到识别CAPTCHA的重要性。麻省理工大学的认知科学教授Josh Tenenbaum同样在使用生成概率模型解决CAPTCHA问题。而Vicarious AI的解决方法和其他研究最大的区别是——将脑科学的研究成果应用到生成模型中。
注:早在2013年,Vicarious AI公布结果时引发AI界业内热议,有褒有贬。当时该公司没有拿出有效的研究方法,成为很多A.I.科学家口诛笔伐的主要理由,其中包括Yann LeCun。他在2013年对Vicarious AI进行了激烈抨击,并用“这是最糟糕的教科书式AI炒作案例(It is a text example of AI hype of theworst kind)”来谴责Vicarious AI。毕竟弄虚作假、骗取投资、赚眼球的“伪AI”太多了。
A论文背景基础知识和公司简介(7515字)
论文背景基础知识和公司简介
文|秦陇纪,2018-06-23Sat综合汇编
A.1论文相关背景基础知识
硅谷初创公司Vicarious AI发表Science论文“Agenerative vision model that trains with high data efficiency and breakstext-based CAPTCHAs”相关的背景基础知识:人工智能(Artificial Intelligence/AI)、推理系统/算法(Reasoning System/Algorithm)、计算机视觉(Computer Vision)、CAPTCHA(CompletelyAutomated Public Turing Test to Tell Computers and Humans Apart全自动区分计算机和人类的图灵测试)、机器学习(Machine Learning/ML)、神经网络(Neural Network)、卷积神经网络(Convolutional NeuralNetwork/CNN)、小样本学习(Small Sample Learning)、生成模型(Generative Model)、概率图模型(Probabilistic GraphicalModels/PGMs)/概率生成模型(Probabilistic GenerativeModels/PGM)、生成式组成模型(Generative Compositional Model)、递归皮层网络(Recursive Cortical Network/RCN)、脑科学(BrainScience)、大脑皮层(Cerebral Cortex)、横向连接(lateral connections)等基础概念。
A.1.1 AI相关背景基础知识(Basicknowledge of AI relevant background)
人工智能(ArtificialIntelligence/AI)
1956年夏季,以麦卡赛、明斯基、罗切斯特和申农等为首的一批有远见卓识的年轻科学家在一起聚会,共同研究和探讨用机器模拟智能的一系列有关问题,并首次提出了“人工智能”这一术语,它标志着“人工智能”这门新兴学科的正式诞生。尼尔逊教授对人工智能下了这样一个定义:“人工智能是关于知识的学科――怎样表示知识以及怎样获得知识并使用知识的科学。”美国麻省理工学院温斯顿教授认为:“人工智能就是研究如何使计算机去做过去只有人才能做的智能工作。”这些说法反映了人工智能学科的基本思想和基本内容。即人工智能是研究人类智能活动的规律,构造具有一定智能的人工系统,研究如何让计算机去完成以往需要人的智力才能胜任的工作,也就是研究如何应用计算机的软硬件来模拟人类某些智能行为的基本理论、方法和技术。
https://baike.baidu.com/item/%E4%BA%BA%E5%B7%A5%E6%99%BA%E8%83%BD/9180
推理系统/算法(Reasoning System/Algorithm)
推理系统reasoning systems是一种利用推理deduction和归纳induction等逻辑技术logical techniques,从可用知识available knowledge中产生结论conclusions的软件系统。推理系统在人工智能artificial intelligence和基于知识的系统knowledge-based systems的实现中起着重要的作用。所有计算机系统都是推理系统,因为它们都自动化了某种类型的逻辑logic或决策decision。在信息技术领域的典型应用typical use中,通常执行更为复杂的推理的系统,不适合做相当简单的推理类型fairlystraightforward types of reasoning,例如计算销售税sales tax或客户折扣customer discount,但适合对医学诊断medical diagnosis或数学定理mathematical theorem进行逻辑推断logical inferences。
推理系统分为两种模式:交互式interactive和批处理batch processing。交互式系统界面interactivesystems interface允许用户要求澄清问题clarifying questions,或用户以其他方式指导推理过程guide the reasoning process。推理系统reasoningsystems具有广泛的应用领域,包括:调度scheduling、业务规则处理business rule processing、问题解决problem solving、复杂事件处理complex event processing、入侵检测intrusiondetection、预测分析predictive analytics、机器人技术robotics、计算机视觉computer vision和自然语言处理natural language processing。还有其他逻辑用处Useof logic,以及不确定性下的推理Reasoning under uncertainty。常见的推理系统类型Types of reasoningsystem:1约束求解Constraint solvers,2定理证明器Theorem provers,3逻辑程序Logic programs,4规则引擎Rule engines,5演绎分类器Deductiveclassifier,6机器学习系统Machinelearning systems,7案例推理系统Case-basedreasoning systems,8程序推理系统Proceduralreasoning systems。推理系统相应的、用到的算法,就是推理算法。
https://en.wikipedia.org/wiki/Reasoning_system
计算机视觉(ComputerVision)
计算机视觉是使用计算机及相关设备对生物视觉的一种模拟,主要任务是通过对采集的图片或视频进行处理以获得相应场景的三维信息,就像人类和许多其他类生物每天所做的那样。计算机视觉是一门关于如何运用照相机和计算机来获取我们所需的,被拍摄对象的数据与信息的学问。形象地说,就是给计算机安装上眼睛(照相机)和大脑(算法),让计算机能够感知环境。顶级会议有①ICCV:International Conference on ComputerVision,国际计算机视觉大会;②CVPR:InternationalConference on Computer Vision and Pattern Recognition,国际计算机视觉与模式识别大会;③ECCV:European Conference on Computer Vision,欧洲计算机视觉大会。
https://baike.baidu.com/item/%E8%AE%A1%E7%AE%97%E6%9C%BA%E8%A7%86%E8%A7%89
CAPTCHA(CompletelyAutomated Public Turing Test to Tell Computers and Humans Apart全自动区分计算机和人类的图灵测试)
CAPTCHA项目是Completely Automated Public Turing Test to Tell Computers and HumansApart(全自动区分计算机和人类的图灵测试)的简称,卡内基梅隆大学试图将其注册为商标,但2008年请求被驳回。CAPTCHA的目的是区分计算机和人类的一种程序算法,是一种区分用户是计算机和人的计算程序,这种程序必须能生成并评价人类能很容易通过但计算机却通不过的测试。CAPTCHA的安全性与SPAM数量息息相关,一直以来,是此消彼长。游戏规则:Captcha方公布一系列的图片,破译Captcha的一方提供程序能够分析这些图片中的内容,如果破译方提供的应用程序能够以高于10%的识别率识别出图片内容,则判定破译方获胜。获胜方将得到BEA UG礼品一份!
https://baike.baidu.com/item/Captcha/9630117
文本CAPTCHA,也就是验证码,是用来防止机器人恶意登录网站的网络安全软件。人类是很容易识别出CATPCHA中形状怪异的文字,但对机器而言CAPTCHA则是看不懂的鬼画符,所以这也被视为是一种图灵测试。在2013年,VicariousAI就声称已经攻克CAPTCHA,但公司直到2017年10月26日才发表了论文。其中一个主要原因是,当时CAPTCHA还在被广泛使用,VicariousAI担心发表论文会引发不小的网络安全问题。现在,依旧使用CAPTCHA作为验证手段的公司已经不多了,正是发表论文的好时机。
机器学习(MachineLearning/ML)
机器学习(Machine Learning/ML)专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。它是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科;是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域,它主要使用归纳、综合而不是演绎。
https://baike.baidu.com/item/机器学习/217599
神经网络(NeuralNetwork)
神经网络分为两种,一种叫做有导师学习,一种叫做无导师学习。有导师学习是感知器的学习规则;而无导师学习是认知器的学习规则。典型的有导师学习网络有BP网络,Hopfield网络;而典型的无导师学习网络有ART网络,Kohonen网络。所谓的“导师”,是指的“导师信号”,也就是学习过程中的监督信号,是在神经网络学习中由外部提供的模式样本信号。
及时澍雨Timely,https://blog.csdn.net/ws_20100/article/details/48929383,2015-10-06.
神经网络历史:①1943年,心理学家W.Mcculloch和数理逻辑学家W. Pitts根据生物神经元功能和结构,提出M-P神经元模型。1957年,Rosenblatt提出感知机MLP模型。Rosenblatt, Frank.x. Principlesof Neurodynamics: Perceptrons and the Theory of Brain Mechanisms. SpartanBooks, Washington DC, 1961. ②1981年,Kohonen提出了自组织映射(SOM)网络。T. Kohonen, Self-organizedformationof topologically correct feature maps, Biological Cybernetics. 1982.43: 59-69.③1982年,Hopfield提出Hopfield网络,用于联想记忆和优化。John J. Hopfield, Neural networks andphysical systems withemergent collective computational abilities, Proc. Natl. Acad. Sci.USA, vol.79 no. 8,pp. 2554–2558, April 1982. ④1986年,Rumelhart和McCelland等提出了误差反向传播(BP)算法,用于多层前馈神经网络的优化。迄今为止应用最广的神经网络学习算法。Rumelhart, David E.; Hinton, GeoffreyE.; Williams, Ronald J. (8 October 1986). Learning representations by back-propagatingerrors. Nature 323 (6088): 533–536.
卷积神经网络(ConvolutionalNeural Network/CNN)
卷积神经网络(Convolutional NeuralNetwork,CNN)是一种前馈神经网络,其人工神经元可以响应一部分覆盖范围内的周围单元,对于大型图像处理有出色表现。它包括卷积层(convolutional layer)和池化层(pooling layer)。https://baike.baidu.com/item/卷积神经网络/17541100
在机器学习machine learning中,卷积神经网络(convolutional neural network,CNN或ConvNet)是一类深度的、前馈的人工神经网络feed-forward artificial neural networks,常用于分析视觉图像analyzing visual imagery。CNNs使用的是为某种需要设计的最小预处理minimal preprocessing的多层感知器multilayer perceptrons的变体variation。[1]他们也被称为移位不变shift invariant或空间不变性人工神经网络space invariant artificial neural networks(SIANN),基于它们的共享权重体系结构shared-weights architecture和翻译不变性特征translationinvariance characteristics。[2][3] 卷积网络由生物过程biological processes启发[4],由于连通性模式connectivity pattern在神经元neurons之间类似动物视觉皮层animal visual cortex的组织。单个皮质神经元cortical neurons只在被称为接受领域receptive field的视觉领域visual field的禁区restricted region内对刺激反应。不同神经元的接受域receptivefields部分重叠,从而覆盖整个视觉场。与其他图像分类算法image classification algorithms相比,CNNs使用的预处理pre-processing相对较少。这意味着网络学会了手工设计hand-engineered的传统算法中的过滤器filters。这种独立于先验知识prior knowledge和人类努力human effort的特征设计feature design是一个主要的优势。它们在图像image和视频识别video recognition、推荐系统recommender systems[5]和自然语言处理natural language processing方面都有应用。[6]
https://en.wikipedia.org/wiki/Convolutional_neural_network
小样本学习(SmallSample Learning)
在互联网,我们主要用large-scale方法处理数据,但真实情况下,大部分类别我们没有数据积累,large-scale方法不完全适用。所以我们希望在学习了一定类别的大量数据后,对于新的类别,我们只需要少量的样本就能快速学习。one-shotlearning,也可以称为few-shot learning或low-shot learning领域。One-shot learning的研究主要分为如下几类:第一类方法是直接基于有监督学习的方法,这是指没有其他的数据源,不将其作为一个迁移学习的问题看待,只利用这些小样本,在现有信息上训练模型,然后做分类;第二个是基于迁移学习的方法,是指有其他数据源时,利用这些辅助数据集去做迁移学习。这是我今年一篇综述里提到的模型分类。
复旦大学付彦伟教授介绍中小样本学习领域研究进展http://www.elecfans.com/d/695496.html
生成模型(GenerativeModel)
监督学习又可以分为两类,判别模型Discriminative model和生成模型generative model,前面提到的SVM和逻辑回归都属于判别模型的一种。https://blog.csdn.net/Fishmemory/article/details/51711114
生成模型(generative models)又叫产生式模型,是机器学习(machinelearning)中监督学习技术(supervisedlearning techniques)的一个分支。生成模型估计的是联合概率分布(joint probability distribution),p(class,context)=p(class|context)*p(context)。为了训练一个生成模型要先在某些领域收集大量的数据(例如数以百万计的图像、句子或声音等),然后训练一个模型来生成像它这样的数据。
https://blog.openai.com/generative-models/
概率图模型(ProbabilisticGraphical Models/PGMs)/概率生成模型(Probabilistic GenerativeModels/PGM)
概率图形模型(Probabilistic graphicalmodels/PGMs)是在复杂域complexdomains上编码概率分布encodingprobability distributio