本篇说明
黑色加粗:概念
紫色加粗:知识点
任务
南瓜书(补一下导学课)
三大术语
人工智能:让机器变得像人一样有智慧的学科
机器学习:让计算机像人一样从数据中学习出规律的算法
深度学习:神经网络类的机器学习算法
AI领域
CV:视觉能力
NLP:语言能力
RS(推荐系统):喜好
南瓜书定位
辅助西瓜书,公式推导
zy基础班--补数学基础
课程使用
西瓜-南瓜-西瓜
西瓜书(目前粗略看完第一章)
1.1 引言
人们利用经验判断明天天气好、西瓜好
--》
人们想,能不能让计算机实现对经验的利用?
因此产生了
机器学习:通过计算,利用经验改善系统性能
ps:经验在计算机中常以数据形式存在
学习算法:通过数据产生模型的算法
学习算法通常有参数设置
从而利用产生的模型来对新情况提供判断
ps:模型在书中指数据中得到的结果
1.2 基本术语
数据集:记录的集合
示例/样本:一条记录
属性:反映对象或事物某方面的性质
属性空间:属性所有的取值
维度:一个示例有多少个属性
特征向量:每个示例对应维度空间上的点对应一个向量空间
学习:执行某种学习算法,从数据中学得模型
训练集:训练样本的集合
假设:学得模型对应了关于数据的某种潜在规律
ps:将潜在规律自身叫做真相
--》
学习过程就是找出或不断逼近真相的过程
标记:示例的结果信息
标记空间:所有标记的集合
学习任务分类
(根据预测值的连续性)
+ 离散值:分类
+ 连续值:回归
(根据训练数据是否有标记)
+ 有监督--》回归、分类
+ 无监督--》聚类
泛化:学得模型适应新样本的能力
ps:一般样本越多,泛化越好
1.3 假设空间
归纳:从特殊到一般的泛化
演绎:从具体事实推导出一般规律
学习过程看成在所有可能假设(假设空间)中搜索的过程,搜索fit训练集的假设
但是,
可能存在很多个fit的假设
--》
1.4 归纳偏好
偏好:
仅有训练样本时学习算法无法判断多个fit谁更好
因此,
学习算法要有对某类型假设的偏好
否则就会被假设等效所迷惑,无法产生确定的学习结果
偏好原则:
“奥卡姆剃刀”:有多个假设,选最简单的那个,即最平滑
没有免费的午餐定理(NFL):胡乱猜约等于学习算法
???怎么可以
然而,
NFL有前提,所有问题出现的机会相等或问题等同重要,但实际情形不是这样的
1.5 发展历程
推理期--》知识期--》。。
下节预告
一元线性回归
西瓜 3.1 3.2 3.3 3.4
本篇差漏(改进就删!)
西瓜书最精华的西瓜例子没有放上来,缺少图形化的解释,人工智能发展历史略读,NFL定理略读,一些公式推导略读,第二章任务还没有完成