1. 机器学习介绍(课堂笔记)
1.1 概念
人工智能:
人工智能(Artificial Intelligence),英文缩写为AI。它是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门新的技术科学。
机器学习:
机器学习是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。 专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。
它是人工智能核心,是使计算机具有智能的根本途径。
深度学习:
深度学习(DL, Deep Learning)是机器学习(ML, Machine Learning)领域中一个新的研究方向,它被引入机器学习使其更接近于最初的目标——人工智能(AI, Artificial Intelligence)
深度学习在搜索技术,数据挖掘,机器学习,机器翻译,自然语言处理,多媒体学习,语音,推荐和个性化技术,以及其他相关领域都取得了很多成果。深度学习使机器模仿视听和思考等人类的活动,解决了很多复杂的模式识别难题,使得人工智能相关技术取得了很大进步。
1.2 人工智能与机器学习,深度学习的关系
1.3 What is Machine Learning?
Machine Learning ≈ Looking for a Function From Date
例如:
- 给一段语言录音,电脑识别出录音的内容并输出
- 给一张图片,电脑识别出图片内容等。
1.4 Framework
总而言之,机器学习由两部分组成:训练(training),测试(Testing),其中训练又有.三个步骤:1.建立一个函数集,2.判断函数集里面的函数是好的还是不好的,3.选出最好的函数。
1.5 学习内容
1.5.1 有监督学习(Supervised Leaning)
训练数据由一组训练实例组成。在监督学习中,每一个例子都是一对由一个输入对象(通常是一个向量)和一个期望的输出值(也被称为监督信号)。有监督学习算法分析训练数据,并产生一个推断的功能,它可以用于映射新的例子。一个最佳的方案将允许该算法正确地在标签不可见的情况下确定类标签。 用已知某种或某些特性的样本作为训练集,以建立一个数学模型(如模式识别中的判别模型,人工神经网络法中的权重模型等),再用已建立的模型来预测未知样本,此种方法称为有监督学习。是最常见的机器学习方法 。
根据任务不同可分为以下三种:
1、Regression
Regression训练得到的函数的输出是一个数值。
例如,根据政府之前的发布的气象资料中的PM2.5数值,预测明天PM2.5。
2、Classification
Classification分两种:
-
Binary Classification:输出的YES/NO
例如:检测垃圾邮件
-
Multi-class Classification:输出的正确的类别
例如:新闻分类
3、structured learning
structured learning 中让机器的输出是有结构性的。
例如:在语音辨识里面,机器输入是声音讯号,输出是一个句子。句子是要很多词汇拼凑完成。它是一个有结构性的object。还有人脸辨识中,给机器一张图片,它会知道说最左边是长门,中间是凉宫春日,右边是宝玖瑠。然后机器要把这些东西标出来。
在监督学习中我们需要大量的training data。training data告诉我们要找的function的input和output之间的关系。如果我们在监督学习下进行学习,我们需要告诉机器function的input和output是什么。这个output往往没有办法用很自然的方式取得,需要人工的力量把它标注出来,这些function的output叫做label。还有有两种减少data用量的方法,半监督学习,迁移学习。
1.5.2 半监督学习(Semi-Supervised Leaning)
半监督学习(Semi-Supervised Learning,SSL)是模式识别和机器学习领域研究的重点问题,是监督学习与无监督学习相结合的一种学习方法。半监督学习使用大量的未标记数据,以及同时使用标记数据,来进行模式识别工作。当使用半监督学习时,将会要求尽量少的人员来从事工作,同时,又能够带来比较高的准确性,因此,半监督学习正越来越受到人们的重视。
相对于有监督学习来说,监督学习的每个function都有label,而半监督学习的训练集中有很多没有label的function。
1.5.3 无监督学习(Unsupervised Learning)
现实生活中常常会有这样的问题:缺乏足够的先验知识,因此难以人工标注类别或进行人工类别标注的成本太高。很自然地,我们希望计算机能代我们完成这些工作,或至少提供一些帮助。根据类别未知(没有被标记)的训练样本解决模式识别中的各种问题,称之为无监督学习。
所有的function都有没有label,看机器能学到什么东西。
1.5.4 迁移学习(Transfer Learning)
迁移学习是一种机器学习方法,就是把为任务 A 开发的模型作为初始点,重新使用在为任务 B 开发模型的过程中。
1.5.5 强化学习(reinforcement Learning)
强化学习(Reinforcement Learning, RL),又称再励学习、评价学习或增强学习,是机器学习的范式和方法论之一,用于描述和解决智能体(agent)在与环境的交互过程中通过学习策略以达成回报最大化或实现特定目标的问题。
1.5.7 模型
模型分两种:线性模型和非线性模型
1、线性模型
线性模型是一类统计模型的总称,制作方法是用一定的流程将各个环节连接起来,包括线性回归模型、方差分析模型。
2、非线性模型
非线性模型(nonlinear model)指反映自变量与因变量间非线性关系的数学表达式,它相对于线性模型而言,其因变量与自变量间不能在坐标空间表示为线性对应关系。
Deep learning就是一种非线性模型。
2.课外笔记
2.1 人工智能、机器学习、深度学习的关系
人工智能是通过计算机技术实现人的智能的拓展和延伸,机器学习就是人们实现人工智能的一种方法,而深度学习则是一种机器学习技术,是一种机器学习的非线性模型。
2.2 线性模型与非线性模型的判断
- 线性模型可以是用曲线拟合样本,但是分类的决策边界一定是直线的,例如logistics模型
- 区分是否为线性模型,主要是看一个乘法式子中自变量x前的系数w,如果w只影响一个x,那么此模型为线性模型。或者判断决策边界是否是线性的