西电大数据专业 大数据统计与分析

rt,本文是为了大数据统计分析课程所写的复习提纲。希望学弟学妹可以作为参考

大数据统计与分析
统计学习:基于数据构建概率模型从而对数据预测分析
分为监督,非监督,强化学习
三要素:模型 + 策略 + 算法
监督学习:输入到输出的映射统计规律
特征向量空间:特征空间
输入输出空间
非监督学习:从无标注的数据中学习预测模型
强化学习:智能系统在和环境的互动中学习最优策略
统计学习分为:概率模型
概率:决策树 朴素贝叶斯 隐马尔可夫
非概率模型
非概率: adaboost knn ,感知机,支持向量机
逻辑斯谛回归二者都算
线性和非线性
线性:感知机 支持向量机 knn k-means
非线性: adaboost 朴素贝叶斯
参数化和非参数化
二者区别在于维度是否有限
统计学习根据算法分为在线学习和批量学习
后验概率:在给定数据下模型的条件概率
核方法:核函数表示学习非线性模型
PCA 非线性支持向量机
模型 + 策略 + 算法
模型:条件概率分布或者决策函数
策略:选择什么模型
算法:学习模型时具体采用什么方法
策略:损失函数
0-1 损失 不相等为 1
平方损失
绝对损失
对数损失
经验风险最小化+结构风险最小化
认为经验风险最小就是最优
结构风险最小化 SRM 解决上述过拟合的问题
加入惩罚项
模型选择:正则化 / 交叉验证
正则化采用结构风险最小化
交叉验证
简单交叉 37
s 折交叉
留一交叉
泛化能力:学习到的模型对未知数据的预测能力
泛化能力有泛化误差上界
监督学习又可分生成方法 + 判别方法
生成决策函数 隐马尔可夫 + 朴素贝叶斯
判别:条件概率分布
当输出变量 Y 是有限个离散的值时,预测问题变成回归问题
precision+recall
标注问题输入观测序列 输出状态序列
回归模型从输入到输出的映射函数
感知机
决策函数 + 分离超平面
极小化损失函数 原始形式
误分类点到超平面的总距离
对偶形式
可以提前算出 Gram 矩阵
原始形式+对偶形式算法
KNN
knn 三要素: k 值选择 距离度量 分类决策规则
k 大时近似误差大
kd 树 找中位数
多数表决
交叉验证最优的 k
朴素贝叶斯
0-1 损失函数
生成学习方法
假设独立同分布
朴素贝叶斯 / 贝叶斯:一个分子分母不加,一个分母分子加参数防止分子为 0
求极大值
决策树
信息增益 = 经验熵 - 经验条件熵
信息增益比
ID3 C4.5的特征选择方式
CART gini系数
算法5.1
信息增益取大,信息增益比取小, gini 系数取小
逻辑斯谛回归
逻辑斯谛分布
FX s fx 轴对称
FX 关于 u 0.5 中心对称
二项
多项
最大熵和逻辑斯谛模型属于对数线性模型,采用极大似然估计
正则化极大似然估计
可以形式为 无约束最优化问题
梯度下降法 拟牛顿法
支持向量机
线性可分
间隔最大化
硬间隔
函数间隔 几何间隔
间隔最大化
对偶形式
最优解存在且唯一
线性
软间隔 间隔最大化
对偶形式
w 唯一但 b 不一定唯一
非线性
核函数
多项式核函数 高斯核函数 字符串核函数
adaboost 提升方法
算法会考
以决策树为基函数的提升方法为提升树
平方误差
损失函数是指数损失 模型是加法模型 算法是前向算法
对偶问题极大极小问题
EM 算法
e m
期望最大
高斯混合模型
EM 算法含有隐变量的概率模型极大似然估计或极大后验概率估计的迭代算法
EM 算法收敛,但是不能保证收敛到全局最优
隐马尔可夫
前向后向
前向得到 at 后向得到 bt
生成模型
在模型入下观测序列 O 的概率
Baum-Welch 算法,即 EM 算法可以高效的训练隐马尔可夫 无监督学习方法
聚类
距离
闵可夫斯基 欧式 曼哈顿 切比雪夫
层次聚类 +k-means
奇异值分解
紧奇异值 + 截断奇异值分解
任意一个实矩阵,奇异值分解一定存在但不唯一
紧奇异值是与原始矩阵等秩
截断奇异值是比原始矩阵低秩的奇异值分解
奇异值就是特征值入的平方根,从大到小
外积展开式
主成分分析
两种方法:特征值求 / 奇异值求
例题7.1 10.3 重点
  • 3
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

不是很爱摆烂的小李

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值