1.1 人工智能的起源(达特茅斯会议)
在1956年8月,在美国汉诺斯小镇宁静的达特茅斯学院中,一些业界科学家正聚在一起;讨论着一个完全不食人间烟火的主题:用机器来模仿人类学习以及其他方面的智能。会议足足开了两个月的时间,虽然大家没有达成普遍的共识,但是却为会议讨论的内容起了一个名字:人工智能。因此,1956年也就成为了人工智能元年。
1.2 什么是人工智能
人工智能(Artificial Intelligence,AI)是由人设计出来的能够模仿人类智能行为,进行识别、推理、决策的技术总称。
人工智能只是一个抽象的广义的概念,任何类似于人的智能或高于人的智能的机器或算法都可以称为人工智能; 如工业机器人、智能家居、人脸识别、自动驾驶等等。
1.3 什么是机器学习
机器学习是人工智能中一个重要学科,它是基于已有数据(知识或经验)上使用算法去解析学习,得到一定的规律,然后在相似的环境里做出决定或预测的技术。
可以通过以下图进行理解:
1980-90年代在出现很多机器学习算法;例如线性回归、逻辑回归、决策树、SVM、简单感知器等。
1.4 什么是深度学习
深度学习是近10年来从机器学习领域迅速崛起的一个学科。
最初模拟人类神经系统设计的神经网络,如下神经网络:
经过多年发展,由多层神经网络学习数据内部复杂关系的人工神经网络。它起源于人工神经网络,强调从连续的层中学习。 深度指神经网络的连续层数多;学习指训练这个神经网络的过程。
例如以下VGG卷积神经网络:
1.5 人工智能、机器学习、深度学习关系
三者之间关系如下图:
人工智能是一个广泛的概念,而机器学习是人工智能领域下重要的学科,深度学习又是机器学习中的一个火热研究的学科。
1.6 深度学习历史
通过以下一图可以了解深度学习的发展历史:
1.7 深度学习的应用
深度学习应用非常广泛,主要有以下三大领域:
(1)机器视觉CV:图像分类、目标检测、语言分割、动作识别...
(2)自然语言处理NLP: 机器翻译、词性标准...
(3)语音识别:语言合成、语言识别...
1.7.1 图像分类
图像分计算机视觉中最基础的任务,基本上深度学习模型的发展史就是图像分类任务推动的(ImageNet挑战赛基本项目);
例如绿水青山就是金山银山,如图像分类在水环境监测的应用:
经典算法:VGG、GoogleNet、Resnet等ILSVRC上出现的。
1.7.2 目标检测
目标检测是检测出图像中物体的类别和边界框等信息。代表性开源项目:YOLO系列、SSD系列、RCNN系列等。
语义分割:在像素级别上的分类,属于同一类的像素都要被归为一类。
应用场景:自动驾驶、医疗图形分析、精准农业喷洒等。
开源项目:FCN、SegNet、U-Net、DeepLab等
1.7.3 人脸识别
人脸识别是在一张图中找到所有的人脸(检测任务、关键点定位),然后分类这张脸是哪个人(识别任务)。
应用:人脸识别门禁、疲劳识别、情感分析等。
开源项目:MTCNN、Retinaface、Arcface、facenet、Dlib等。
1.7.4 姿态估计
姿态估计的目标是在RGB图像或视频中描绘出人体的形状。
应用:姿态估计(物体方位)、身体部位分割、行为识别、手部形态识别等等
开源项目:openpose、DensePose、AlphaPose、DeepPose等
1.7.5 机器翻译
机器翻译是利用计算机将一种自然语言转换为另一种自然语言的过程。
经典开源项目:Transformer 、BART、XLNet等
1.7.6 文本分类
文本分类在文本处理中是很重要的一个模块,它的应用也非常广泛。
比如:垃圾过滤,新闻分类,词性标注等等。
1.7.7 语音识别
语言识别是将语音片段输入转化为文本输出的过程。
比如:苹果的 siri、智能音箱、天猫精灵,还有如科大讯飞一系列的智能语音产品等。