深度学习基础知识
1. 机器学习经典算法
算法:无监督学习之K均值,线性回归、逻辑回归方法,K近邻分类,线性判别函数,支持向量机,线性vs非线性,朴素贝叶斯分类方法。
1.1 K均值聚类(K-Means)
① 随机选取K个样本为初始聚类中心;
② 计算每个样本与各聚类中心之间的距离;
③ 把每个样本分配给距离它最近的聚类中心(聚类中心以及分配给它们的对象就代表一个聚类)
④ 每分配一轮,聚类的聚类中心根据现有的对象被重新计算;
⑤ 不断重复直到满足某个终止条件(例:最小被重新分配数、变化的聚类中心数、误差平方和最小)。
1.2 线性回归
- 机器学习和统计学中最基础和广泛应用的模型。
- 学习准则:误差最小化
- 误差最小化的两种方法:最小二乘法、梯度下降法求解
- 应用:房价预测
1.2.1 过拟合 vs 欠拟合(泛化能力)
- 过拟合:使训练误差持续下降但测试误差会上升(data少,但model太复杂,结果过于精准)
- 欠拟合:model拟合程度不高,data距离拟合的曲线较远,误差较大,或指model没有很好地捕捉到数据的特征,不能够很好地拟合data,此时一般说model容量不够。
1.3 梯度下降法
- 梯度下降法希望每次变化参数使得 C(误差)的变化是负的,最终达到最小值。
1.4 随机梯度下降法(Stochastic Gradient Descent, SGD)
- 与梯度下降法不同,随机梯度下降法不会去计算一个一个的单样本,而是从样本中随机抽取,抽取的样本平均值要和全部样本的平均值差不多,用小批量样本(bench)进行梯度下降。
- 优点:速度快。
- 缺点:梯度稳定性弱(抽取的data不一定有很强的代表性),很难找到全局最小值,收敛太慢。
1.5 逻辑回归
- 01逻辑回归:判断阴性阳性分类。
- 逻辑回归相当于在线性回归基础上加个Sigmoid函数。
1.6 K近邻分类(KNN)
- KNN理论成熟,是最简单的机器学习算法之一。
- 线性判别函数(分类器):用线性函数进行二分类,试图学习出yn f(xn; θ)>0,当线性函数等于0时,称为决策边界、决策平面、超平面。