1. 线性代数
- 矩阵分类:
- 实对称矩阵
- 单位矩阵
- 逆矩阵
- 正定矩阵
- 线性相关
- 线性组合
- 矩阵的初等变换
- 计算矩阵线性回归是用于描述变量之间关系的方法,通常在机器学习中用于预测较简单的回归问题的数值
- 矩阵的秩
- 高斯消元法
- 机器学习中的低秩矩阵有什么特点?
如果矩阵表达的是结构性信息,例如图像,用户-商品推荐表等等,那么存在一定的相关性,矩阵一般就是低秩的 - 低秩矩阵的特点有什么应用?
如果图像的秩比较高,往往是因为图像中的噪声比较严重,所以图像处理的低秩性其实可以拿来去除照片中的噪点
- 特征值和特征向量
- 线性子空间
- 范数
2.概率论
- 学习目标
- 了解期望与方差
- 理解常见的概率分布
- 了解概率分布特点
- 运用贝叶斯公式处理分类问题
- 掌握最大似然估计算法
- 随机变量
随机变量 :用一个变量来表示随机试验的结果
离散型随机变量:抛硬币
连续型随机变量:身高统计
- 伯努利分布/二项分布
- 泊松分布/二项分布
-
正态分布
-
条件概率
-
贝叶斯公式
-极大似然估计算法
最大似然估计的一般步骤为:
1.写出似然函数
2.对似然函数取对数得到对数似然函数
3.求对数似然函数的关于参数组的偏导数,并令其为0,得到似然方程组
4.解似然方程组,得到参数组的值
极大似然估计算法vs贝叶斯
1.估计的参数不同
2.是否认为参数的所有可能取值都是一样的
3.是否引入先验概率
3. 统计学系概述及最大熵模型
- 熵
用于描述信息的不确定行,因为无序程度和不确定性,其背后都带有随机分布的特点,熵的计算被定义为
其中X 代表一个离散型随机变量
联合熵:体现随机变量X和Y共同携带的信息量
其中p(x,y)是随机变量x和y的联合分布
条件熵:一直一个随机变量,另一个随机变量的熵的计算
相对熵:两个随机分布之间距离的度量
其中p和q是两个概率分布
互信息:随机变量X的熵,在给定随机变量Y的条件熵后的缩减量
- 最大熵模型
最大熵就是使得系统处于熵最大时的状态— 满足已有事件,无偏地对待不确定时间,即对未确定的时间认为是等概率出现的
其中 ~P(x)是先验概率,P(y|x)是条件概率
在模型集合C中保证H(P)最大的模型被称为最大熵模型
拉格朗日乘子法
在最大熵求解问题中,应用拉格朗日乘子,此时损失函数对应的拉格朗日函数L(P,W)为
求L(P,w)关于P(y|x)的偏导数,并令其等于0
又有
因此两式子联立可得到的最大熵模型的公式
其中z为规范化的因子,定义为
-
向量表示
-
数据集
训练集,测试集,验证集 -
统计学习三要素
模型(生成模型:朴素贝叶斯,隐马尔科夫模型 判别模型:k近邻法,决策树,线性回归,逻辑蒂斯回归,SVM,神经网络等)
策略(0-1损失函数,平方损失函数,对数损失函数)
算法 算法是使用开发测试集数据学习模型参数,网络的具体办法,也有可能在开发测试集之外借助于其他数据