- 机器学习是什么,怎么来的,理论基础是什么,为了解决什么问题。
- 机器学习:机器学习所研究的主要内容,是关于在计算机上从数据中产生“ 模型",我们把经验数据提供给它,它就能基于这些数据产生模型;在面对新的情况时它致力千研究如何通过计算的手段,利用经验来改善系统自身的性能
- 机器学习分类
-
- 按学习方式分:有监督、无监督、半监督
- 按学习方式分:有监督、无监督、半监督
- 监督学习是指利用一组已知类别的样本调整分类器的参数,使其达到所要求性能的过程,也称为监督训练或有教师学习。在监督学习的过程中会提供对错指示,通过不断地重复训练,使其找到给定的训练数据集中的某种模式或规律,当新的数据到来时,可以根据这个函数预测结果。监督学习的训练集要求包括输入和输出,主要应用于分类和预测。 2. 与监督学习不同,在非监督学习中,无须对数据集进行标记,即没有输出。其需要从数据集中发现隐含的某种结构,从而获得样本数据的结构特征,判断哪些数据比较相似。因此,非监督学习目标不是告诉计算机怎么做,而是让它去学习怎样做事情。
- 半监督学习是监督学习和非监督学习的结合,其在训练阶段使用的是未标记的数据和已标记的数据,不仅要学习属性之间的结构关系,也要输出分类模型进行预测。
- 强化学习(Reinforcement Learning, RL),又称再励学习、评价学习或增强学习,是机器学习的范式和方法论之一,用于描述和解决智能体(agent)在与环境的交互过程中通过学习策略以达成回报最大化或实现特定目标的问题.
-
- 按任务类型分:回归、分类、聚类、降维 生成模型与判别模型
-
-
分类
二元分类(binary classification):输出只有两个,一般y={-1,+1}
包括信用卡发放、垃圾邮件判别、患者疾病诊断、答案正确性估计等多元分类(Multiclass Classification):输出 多于两个,y={1, 2, … , K}, K>2
有数字识别、图片内容识别等
-
-
- 回归
回归问题,输出y=R,即范围在整个实数空间, 是连续的,线性回归预测房屋价格、股票收益多少等、
-
- 聚类
它涉及到数据点的分组。给定一组数据点,我们可以使用聚类算法将每个数据点划分为一个特定的组。理论上,同一组中的数据点应该具有相似的属性和/或特征,而不同组中的数据点应该具有高度不同的属性和/或特征。聚类是一种无监督学习的方法,是许多领域中常用的统计数据分析技术。
-
- 降维
降维就是指采用某种映射方法,将原高维空间中的数据点映射到低维度的空间中。降维的本质是学习一个映射函数 f : x->y,其中x是原始数据点的表达,目前最多使用向量表达形式。 y是数据点映射后的低维向量表达,通常y的维度小于x的维度(当然提高维度也是可以的)。f可能是显式的或隐式的、线性的或非线性的。
- 机器学习方法三要素
- 模型
- 策略 :损失函数
-
=0-1损失函数L(y,f(x))={ 0, y = f(x) 1, y !=f(x)
-
绝对值损失函数
L(y,f(x))=∣y−f(x)∣L(y,f(x))=|y-f(x)|
L(y,f(x))=∣y−f(x)∣ -
平方损失函数
L(y,f(x))=(y−f(x))2L(y,f(x))=(y-f(x))^2
L(y,f(x))=(y−f(x)) ^2 -
log对数损失函数
L(y,f(x))=log(1+e−yf(x))L(y,f(x))=log(1+e^{-yf(x)})
L(y,f(x))=log(1+e
−yf(x)
) -
指数损失函数
L(y,f(x))=exp(−yf(x))L(y,f(x))=exp(-yf(x))
L(y,f(x))=exp(−yf(x)) -
Hinge损失函数
L(w,b)=max0,1−yf(x)L(w,b)=max{0,1-yf(x)}
L(w,b)=max0,1−yf(x)
- 算法 :梯度下降法、牛顿法、拟牛顿法
- 模型评估指标:R2、RMSE、accuracy、precision、recall、F1、ROC、AUC、Confusion Matrix
- MSE(Mean Squared Error) M S E ( y , f ( x ) ) = 1 N ∑ i = 1 N ( y − f ( x ) ) 2 MSE(y,f(x))=\frac{1}{N}\sum_{i=1}^{N}(y-f(x))^2 MSE(y,f(x))=N1i=1∑N(y−f(x))2
- MAE(Mean Absolute Error) M S E ( y , f ( x ) ) = 1 N ∑ i = 1 N ∣ y − f ( x ) ∣ MSE(y,f(x))=\frac{1}{N}\sum_{i=1}^{N}|y-f(x)| MSE(y,f(x))=N1i=1∑N∣y−f(x)∣
- RMSE(Root Mean Squard Error) R M S E ( y , f ( x ) ) = 1 1 + M S E ( y , f ( x ) ) RMSE(y,f(x))=\frac{1}{1+MSE(y,f(x))} RMSE(y,f(x))=1+MSE(y,f(x))1
- Top-k准确率 T o p k ( y , p r e y ) = { 1 , y ∈ p r e y 0 , y ∉ p r e y Top_k(y,pre_y)=\begin{cases} 1, {y \in pre_y} \ 0, {y \notin pre_y} \end{cases} Topk(y,prey)={1,y∈prey 0,y∈/prey
- 真正例(True Positive, TP):真实类别为正例, 预测类别为正例
- 假负例(False Negative, FN): 真实类别为正例, 预测类别为负例
- 假正例(False Positive, FP): 真实类别为负例, 预测类别为正例
- 真负例(True Negative, TN): 真实类别为负例, 预测类别为负例
- 真正率(True Positive Rate, TPR): 被预测为正的正样本数 / 正样本实际数 T P R = T P T P + F N TPR=\frac{TP}{TP+FN} TPR=TP+FNTP
- 假负率(False Negative Rate, FNR): 被预测为负的正样本数/正样本实际数 F N R = F N T P + F N FNR=\frac{FN}{TP+FN} FNR=TP+FNFN
- 假正率(False Positive Rate, FPR): 被预测为正的负样本数/负样本实际数, F P R = F P F P + T N FPR=\frac{FP}{FP+TN} FPR=FP+TNFP
- 真负率(True Negative Rate, TNR): 被预测为负的负样本数/负样本实际数, T N R = T N F P + T N TNR=\frac{TN}{FP+TN} TNR=FP+TNTN
- 准确率(Accuracy) A C C = T P + T N T P + F N + F P + T N ACC=\frac{TP+TN}{TP+FN+FP+TN} ACC=TP+FN+FP+TNTP+TN
- 精准率 P = T P T P + F P P=\frac{TP}{TP+FP} P=TP+FPTP
- 召回率 R = T P T P + F N R=\frac{TP}{TP+FN} R=TP+FNTP
- F1-Score 2 F 1 = 1 P + 1 R \frac{2}{F_1}=\frac{1}{P}+\frac{1}{R} F12=P1+R1
- ROC
ROC曲线的横轴为“假正例率”,纵轴为“真正例率”. 以FPR为横坐标,TPR为纵坐标,那么ROC曲线就是改变各种阈值后得到的所有坐标点 (FPR,TPR) 的连线,画出来如下。红线是随机乱猜情况下的ROC,曲线越靠左上角,分类器越佳.
- AUC(Area Under Curve)
AUC就是ROC曲线下的面积. 真实情况下,由于数据是一个一个的,阈值被离散化,呈现的曲线便是锯齿状的,当然数据越多,阈值分的越细,”曲线”越光滑.
用AUC判断分类器(预测模型)优劣的标准:
- AUC = 1 是完美分类器,采用这个预测模型时,存在至少一个阈值能得出完美预测。绝大多数预测的场合,不存在完美分类器.
- 0.5 < AUC < 1,优于随机猜测。这个分类器(模型)妥善设定阈值的话,能有预测价值.
- AUC < 0.5,比随机猜测还差;但只要总是反预测而行,就优于随机猜测.
- 混淆矩阵
- 复杂度度量:偏差与方差、过拟合与欠拟合、结构风险与经验风险、泛化能力、正则化
- 模型选择:正则化、交叉验证
-
交叉验证
所有数据分为三部分:训练集、交叉验证集和测试集。交叉验证集不仅在选择模型时有用,在超参数选择、正则项参数 [公式] 和评价模型中也很有用。 -
k-折叠交叉验证
假设训练集为S ,将训练集等分为k份: S 1 , S 2 , . . . , S k {S_1, S_2, ..., S_k} S1,S2,...,Sk.
然后每次从集合中拿出k-1份进行训练
利用集合中剩下的那一份来进行测试并计算损失值
最后得到k次测试得到的损失值,并选择平均损失值最小的模型 -
Bias与Variance,欠拟合与过拟合
欠拟合一般表示模型对数据的表现能力不足,通常是模型的复杂度不够,并且Bias高,训练集的损失值高,测试集的损失值也高.
过拟合一般表示模型对数据的表现能力过好,通常是模型的复杂度过高,并且Variance高,训练集的损失值低,测试集的损失值高.
- 采样:样本不均衡
- 特征处理:归一化、标准化、离散化、one-hot编码
- 模型调优:网格搜索寻优、随机搜索寻优
-
网格搜索
一种调参手段;穷举搜索:在所有候选的参数选择中,通过循环遍历,尝试每一种可能性,表现最好的参数就是最终的结果 -
随机搜索
与网格搜索相比,随机搜索并未尝试所有参数值,而是从指定的分布中采样固定数量的参数设置。它的理论依据是,如果随即样本点集足够大,那么也可以找到全局的最大或最小值,或它们的近似值。通过对搜索范围的随机取样,随机搜索一般会比网格搜索要快一些。 -
贝叶斯优化算法
贝叶斯优化用于机器学习调参由J. Snoek(2012)提出,主要思想是,给定优化的目标函数(广义的函数,只需指定输入和输出即可,无需知道内部结构以及数学性质),通过不断地添加样本点来更新目标函数的后验分布(高斯过程,直到后验分布基本贴合于真实分布。简单的说,就是考虑了上一次参数的信息,从而更好的调整当前的参数。
- Linear Algorithms
- Linear Regression
- Lasso Regression
- Ridge Regression
- Logistic Regression
- Decision Tree
- ID3
- C4.5
- CART
- SVM
- Naive Bayes Algorithms
- KNN
- Clustering Algorithms
- K-Means
- Random Forest
- Dimensionality Reduction Algorithms
- Gradient Boosting algorithms
- Deep Learning Algorithms