机器学习目前发展的阶段:工程大于理论
机器学习三观
what:什么是机器学习
研究关于学习算法的一门学科,从一类数据中学会背后的规律
(深度学习:是机器学习的子集,是指神经网络一类的算法)
why:为什么学习机器学习
①理论研究
②系统开发
③迁移到到自己的研究领域
④AI应用方向研究:自然语言处理(NLP)、计算机视觉(CV)、推荐系统等
how:怎样学习(应用领域)
①基础数学知识:高等数学、线性代数、概率论(张宇考研数学基础班)
②高阶数学知识:西瓜书、南瓜书
学习程度:①能看懂②会调scikit-learn库,不用自己实现
基本术语
假设空间和版本空间
假设空间:假设每个变量之间的关系,一个问题可以有多个假设空间
版本空间:所有可以拟合训练集的模型(假设)构成的集合
假设空间包含版本空间
算法:从数据中学的模型的具体方法
样本(示例):关于一个事件或对象的描述(具体的一条数据),用向量描述
例:x = (青绿;蜷缩;清脆)
向量中的各个维度称为特征或属性
(分号分隔表示列向量,逗号分隔表示行向量)
标记:样本某方面存在的一些规律,称为该方面的标记
样本空间:表示样本的特征向量所在的空间
标记空间:标记所在的空间
任务类型:
根据取值类型不同:①分类任务:二分类、多分类
②回归任务:取值为连续性的
根据是否用到标记信息:①监督学习:模型训练阶段用到标记信息
②无监督学习:模型训练阶段没有用到标记信息
数据集:样本数据的集合
模型:数据集训练以后产生的结果
真相:样本背后存在的潜在的规律
假设:算法训练出的规律
泛化:对未知事务判断准确与否的能力
分布:样本服从的未知分布D,样本越多,越能反推出D,也就越接近真相
归纳偏好
归纳偏好:不同机器学习算法有不同的偏好
(基于模型在测试集上的表现来评判模型的优劣)
模型只有适不适合,没有绝对的好坏
数据决定模型的上限,而算法则是让模型无限逼近上限
(特征工程很重要)