-
统计学习方法三要素:模型、策略和算法
策略是想要最优解
模型给定输入,训练,得到输出
算法处理信息的方法 -
模型选择:正则化、交叉验证与学习泛化的能力
正则化:防止过拟合,简单来说是限制在规则之内,减小误差的行为,规则化,给需要训练的目标函数加一些规则限制
范式:有矩阵范式和向量范式,向量范式为值的n次方的和的开n次方
∥ x ∥ p = ∑ i ∣ x i ∣ p p \|\boldsymbol{x}\|_{p}=\sqrt[p]{\sum_{i}\left|x_{i}\right|^{p}} ∥x∥p=pi∑∣xi∣p
泛化能力:对未知数据的预测能力-》模型的泛化能力
对新样本的适应能力。学习的目地是为了学到隐含在数据背后的规律,对具有同一规律的学习集外的数据,经过训练的网络也能给出 合适的输出,这种能力就是繁华能力。
泛化能力弱,做了很多题,但老题新题都不会做,欠拟合;
泛化能力弱,做了很多题,会做老题不会做新题,过拟合;
不做题,考试时乱蒙一气,不收敛。
交叉验证:评估机器学习模型的表现,一般在数据不是很充足的时候进行交叉验证,使用不用份数据:训练集、验证集、测试集 -
什么是统计学习?:首先基于数据,构建概率统计模型,运用模型对数据进行预测与分析的一门学科。
所以是 用数据->构建出模型=》用模型->预测分析数据
统计学习也叫统计机器学习(statistical machine learning)
对象是数据。 -
同类数据具有一定的统计规律,这是统计学习的前提
-
用随机变量描述数据的特征;(离散是特征)
用概率分布描述数据的统计规律。(连续是规律) -
统计学习/机器学习分类:监督学习、半监督学习、非监督学习、强化学习
-
假设空间:要学习的某个模型属于某个函数的集合;应用评价标准,从假设空间中选取一个最优的模型,使其对已知训练数据及未知测试数据在给定的评价标准下有最优的准则。三要素:模型,策略,算法>模型是模型中的假设空间,策略是模型选择的准则,算法:模型学习的算法
-
统计学习方法实现步骤:
- 得到一个有限的训练数据集合
- 确定学习模型的集合:包含所有模型的假设空间
- 确定学习的策略:模型选择的准则
- 确定学习的算法:实现求解最优模型的算法
- 通过学习方法选择最优模型
- 利用学习的最优模型对新数据进行分析或预测
-
欧氏空间:欧几里得,从2,3维的规律应用到n维上去,符合定义的空间被统称为欧几里得空间
-
每个输入视为实例,每个实例可以用特征向量表示,存储特征向量的地方是特征空间
-
习惯上,输入、输出空间用大写字母X、Y表示,输入、输出变量用小写字母x,y表示
-
x ( i ) x^{(i)} x(i)表示x的第i个特征, x i x_{i} xi表示x的第i个特征,
x i = ( x i 1 , x i 2 , . . . , x i n ) T x_{i}=(x_i^1,x_i^2,...,x_i^n)^T xi=(xi1,xi2,...,xin)T -
监督学习从训练数据集合种学习模型,对测试数据进行预测。
训练数据由输入(特征向量)与输出对组成。
T = ( x 1 , y 1 ) , ( x 2 , y 2 ) , ( x 3 , y 3 ) , . . . , ( x n , y n ) T={(x_1,y_1),(x_2,y_2),(x_3,y_3),...,(x_n,y_n)} T=(x1,y1),(x2,y2),(x3,y3),...,(xn,yn) -
{ 回 归 问 题 : 输 入 与 输 出 变 量 均 为 连 续 变 量 的 预 测 问 题 分 类 问 题 : 有 限 个 离 散 变 量 的 预 测 问 题 标 注 问 题 : 输 入 变 量 与 输 出 变 量 均 为 变 量 序 列 的 预 测 问 题 \left\{\begin{array}{l} 回归问题:输入与输出变量均为连续变量的预测问题\\ 分类问题:有限个离散变量的预测问题 \\标注问题:输入变量与输出变量均为变量序列的预测问题 \end{array}\right. ⎩⎨⎧回归问题:输入与输出变量均为连续变量的预测问题分类问题:有限个离散变量的预测问题标注问题:输入变量与输出变量均为变量序列的预测问题
-
在监督学习中,是假设输入与输出的随机变量X与Y遵循联合概率分布 P ( X , Y ) P(X,Y) P(X,Y)
-
假设空间:模型(训练初的模型)由输入空间到输出空间映射的集合。
-
条件概率分布 P ( Y ∣ X ) : P(Y|X): P(Y∣X):概率模型
决策函数 Y = f ( X ) Y=f(X) Y=f(X):非概率模型 -
参数向量取值于n维欧氏空间 R n R^n Rn,参数空间 -
决策:由损失函数和风险函数统筹决策
损失函数:度量模型一次预测的好坏,
风险函数:度量平均一一下模型预测的好坏。 -
损失函数数值越小,模型越好
-
损失函数的期望称为:风险函数、期望损失
-
机器/统计学习总目标:选择期望最小的模型。
期望风险 R e x p ( f ) R_{exp}(f) Rexp(f)是模型关于联合分布的期望损失
经验风险 R e m p ( f ) R_{emp}(f) Remp(f)是模型关于训练样本集的平均损失 -
防止过拟合:结构风险化≈正则化
经验风险小需要经验风险与模型复杂度同时小
结构风险下的模型有更好的预测
贝叶斯估计:最大后验估计 -
对未知数据的预测能力:这种能力称为泛化能力
-
模型选择的方法:正则化(加一个罚项)和交叉验证
-
奥卡姆剃刀原理:如无必要,勿增实体。简单而有效
生成方法可还原出联合概率分布P(X,Y) -
TP:将正类预测为正类
FN:将正类预测为负类
FP:将负类预测为正类
TN:将负类预测为负类
精确率: P = T P T P + F P P=\frac{TP}{TP+FP} P=TP+FPTP
召回率: R = T P T P + F N R=\frac{TP}{TP+FN} R=TP+FNTP -
标注常用的统计学习方法:隐马尔可夫模型,条件随机场
-
回归:用于预测输入变量(自变量)和输出变量关系
-
回归常用损失函数:平方损失函数->用最小二乘法求解
-
(股价预测模型可用于课题方向的学习)
《统计学习方法》学习笔记(一):概论
于 2022-04-22 21:09:38 首次发布