内容学习自周志华的西瓜书和Andrew ng的CS229
机器学习,顾名思义,是一门让机器自己学习的学问。user提供给计算机一个训练集,机器通过数据集学习生成算法H,而user之后使用生成的学习算法H,对崭新未知的Input进行预测,获取结果。
数据集 data set
数据集内的每个数据单位(每条记录),被称为 示例instance/样本sample
而一个记录中(某个事物)会包含若干特征,称此为 属性attribute/特征feature
属性具有其对应的若干个value[若属性为体型,则value=高、矮、胖、瘦]
全体属性的取值构成的所有可能 被称做 样本空间sample space
设事物具备n种属性,则样本空间是n维的。在此空间中 每个记录对应一个坐标向量 feature vector
机器通过训练,生成假设函数/模型,以求输入某未知值时,能够预测出相应output
预测离散值--->分类; 预测连续值--->回归
根据训练数据是否具备明确的标记信息 可将ML 大致上分成 监督学习 和 非监督学习
监督学习supervised learning 要求结果有明确的指向[病人是否生病、房价估价几何] 代表即是上述的 分类和回归问题
非监督学习unsupervised learning 的训练数据无明确标志,要求系统自主分类[声源分离] 代表为聚类问题clustering
机器学习是一个归纳induction的过程, 从特殊情况概况总结出一般,普适的假设,是一个泛化的过程
机器通过训练学习 所有可能得出的假设,被称作假设空间
但现实中,会发生假设空间很大(可能性多),而训练集有限的情况
有如一个不满秩的方程组存在多解,上述情况可能会存在多种假设H满足符合训练集的训练,人们称这个假设集合为版本空间version space。那到底用哪个假设呢? 这时候 就需要根据user自身的归纳偏好,根据侧重点选择假设。
No Free Lunch Theorem 太长,略。