一序
本文属于极客时间数学基础学习系列。第二节比较抽象,介绍了早期人工智能的方法,第三节是机器学习的概论,之前NLP训练营老师讲过,所以就是串下知识点。
二形式逻辑
谓词逻辑:,人工智能早期的方法,缺点:不能表示不确定性的知识,推理效率很低 。
关于“哥德尔不完备定理”,这个太抽象了,什么是一致性,完备性。还是看你知乎大佬们的解释吧:
https://www.zhihu.com/question/27528796/answer/715471969
三 机器学习概论
机器学习机制:计算机基于数据结构构建概率统计模型,并运用模型对数据进行预测和分析的学科。
要做的就是根据已有的训练数据推导出描述所有数据的模型,并根据得到的模型实现对于未知的测试数据的最优预测。
数据是对于对象某些属性的描述。取值属性值。不同的属性值有序排列得到的向量就是数据。
每个属性都代表了一个不同的维度,这些维度组成了特征空间。
预测问题,分为三类:
分类问题,回归问题,标注问题。
- 分类问题:输出为有限个离散状态 。
- 回归问题:输入变量和输出变量均为连续变量。
- 标注问题:输入变量和输出变量均为变量序列。
错误率是机器学习的重要指标之一。
误差分为:训练误差(机器学习模型在训练数据集上表现出的误差叫做训练误差;),测试误差(泛化误差)。
泛化误差就是期望误差和经验误差的差异。
过拟合(overfitting)与欠拟合(underfitting)是统计学中的一组现象。过拟合是在统计模型中,由于使用的参数过多而导致模型对观测数据(训练数据)过度拟合,以至于用该模型来预测其他测试样本输出的时候与实际输出或者期望值相差很大的现象。欠拟合则刚好相反,是由于统计模型使用的参数过少,以至于得到的模型难以拟合观测数据(训练数据)的现象。
过拟合之前文哲老师有个通俗的介绍,就是把错误的点(噪音)也当做共性(知识)拟合了进去。
为了解决过拟合通常使用加入一个正则项,在最小化新的代价函数的时候,正则项使得预测值与真实值之间的误差并不会达到最小,这样也就防止了过拟合,提高了机器学习模型的泛化能力。
测试误差与模型复杂度之间的呈现的是抛物线关系(就是有个最低点)。
交叉认证。
调参就是性能 与效率之间的折衷。
机器学习任务分类:监督学习,无监督学习,半监督学习。
通常用监督学习,效果最好。监督学习的任务是在假设空间中根据特定的误差规则找出最优的模型,(也就是根据有限的训练数据学习出一个输入到输出的映射模型)。
监督学习方法又分生成方法(Generative approach)和判别方法(Discriminative approach),所学到的模型分别称为生成模型(Generative Model)和判别模型(Discriminative Model)。
判别方法:由数据直接学习决策函数Y=f(X)或者条件概率分布P(Y|X)作为预测的模型,即判别模型(就是直接得到条件概率)。基本思想是有限样本条件下建立判别函数,不考虑样本的产生模型,直接研究预测模型。典型的判别模型包括k近邻,感知级,决策树,支持向量机等。
生成方法:由数据学习联合概率密度分布P(X,Y),然后求出条件概率分布P(Y|X)作为预测的模型,即生成模型:P(Y|X)= P(X,Y)/ P(X)。就是首先建立样本的联合概率概率密度模型P(X,Y),然后再得到后验概率P(Y|X)。有点绕,典型的生成模型有:朴素贝叶斯和隐马尔科夫模型等。
生成方法收敛速度快,应用范围广,但是计算量大,耗时长。判别方法:更高的准确率和更简单的使用方式。
生成模型和判别模型的联系: 由生成模型可以得到判别模型,但由判别模型得不到生成模型。