2.1统计分析课堂笔记

一.统计学习的定义: 1.统计学习基于数据分布 ;统计学习理论强调从数据中学 习,通过估计数据的概率分布 来构建预测模型,实现知识发现

                                  2.样本规模影响模型精度;较大的样本规模能够提供更多 的信息,使得学习到的模型更 为准确和泛化能力强

                                  3.偏差与方差权衡重要;统计学习中偏差表示模型的准 确性,方差反映模型的稳定性, 合适的权衡是提高模型性能的 关键

                                  4.正则化避免过拟合;通过添加正则化项到模型的学 习目标中,可以减少模型的复 杂度,从而避免模型在训练数 据上过度拟合

二.生成模型和判别模型:

                           1.生成模型适用于数据生成、异常检测等场景,如朴素贝叶斯、隐马尔可夫模型等,通过学习数据的 联合概率分布来生成新数据,能揭示数据间的内在关系,决策 边界

                           2.判别模型在分类任务中表现优越,具体选择需基于数据特性 和任务需求,如支持向量机、逻辑回归等,直接学习不同类别间的 最优决策边界,对分类问题高效且准确

三.统计方法学习三要素:

                模型: 1.数据决定模型上限

在机器学习中,数据的丰富性和 质量直接影响统计学习模型的性 能上限。高质量数据能训练出更 准确的模型

                         2.算法优化模型性能

统计学习算法的选择和优化对于提升模型性能至关重要。合适的算法能更有效地从数据中提取特
征,提升预测精度

               策略:1.策略选择影响模型性能

在机器学习中,策略的选择直接关 系到模型泛化能力的高低。合理选 择训练算法、参数调整和评估准则能有效提升模型性能

                          2.数据分布影响策略有效性

统计学习理论表明,数据的真实分 布影响学习策略的有效性。适应数据分布的策略能够减少过拟合,提高模型的准确性。
                          3.    数据分布影响策略有效性
策略实施前的特征选择能够显著降 低数据的维度,选择有信息量的特征可以显著提升机器学习策略的性能表现
                算法:1. 统计学习算法的重要性
统计学习算法是机器学习的基石,通过数据驱动, 自动学习数据中的模式和规律,实现智能化预测和决策
                            2. 数据量与算法性能
大数据时代,充足的数据能够支持更复杂算法的 训练,提升模型的准确率和鲁棒性
                          
                           3. 算法复杂性与过拟合
随着算法复杂性的增加,虽能拟合更复杂的数据, 但过拟合风险也增大,导致泛化能力下降,需通过正则化等技术平衡
四.模型假设与验证
1.模型假设的重要性
在机器学习中,模型假设是预测准确性的基石。例如,线性回归假设变量间存在线性关系,
通过数据验证假设,可确保模型的有效应用。
2.数据分布影响假设
模型假设需符合实际数据分布,如支持向量机假设数据在高维空间可分,数据分布的多样
性直接影响假设的合理性。
3.交叉验证验证假设
通过交叉验证技术,如K折交叉验证,可以评估模型假设在不同数据集上的泛化能力,确
保模型假设的稳健性 

交叉验证通过将数据集划分为训练 集和验证集,有效防止了模型在训 练集上过拟合,提高了模型在未知 数据上的泛化能力。 通过多次交叉验证并计算平均性能 指标,能够准确评估机器学习模型 的性能,为模型选择和调参提供依 据。 无论是小规模数据集还是大规模数 据集,交叉验证都能有效应用,特 别在数据集较小时,通过交叉验证 可充分利用数据,提高模型精度

五.模型评估与选择:
                                                          经验误差与过拟合
            
1.交叉验证避免过拟合
交叉验证通过多次分割数据训练和测试模型,有效评估模型 的泛化能力,避免选择过度拟合训练数据的模型。
2.准确性与泛化性平衡
在模型评估中,我们追求的是不仅在训练集上表现良好,更 要在未知数据上保持准确,实现准确性与泛化性的最佳平衡。
3.ROC曲线全面评估
ROC曲线综合考虑了不同分类阈值下的真正例率和假正例率, 是评估二分类模型性能的全面工具。
 
                                                       模型评估与选择:误差分析

                                                     

                                                    模型评估与选择:模型选择准则

1.偏差-方差权衡
模型选择时需权衡偏差与方差,简单模型易产生高偏差但低方差,复杂模型则相反,
需通过数据性能评估确定最优模型
2.交叉验证防过拟合
通过交叉验证将数据集分割成训练集和测试集,评估模型在未见数据上的性能,减少
过拟合,选择更泛化的模型
3.奥卡姆剃刀原则
在模型选择时,若无足够数据或理论支持复杂模型更优,则选择最简单的模型,即
“如无必要,勿增实体”
六.生成模型
                                                           
                                                            生成模型:贝叶斯估计    
1.贝叶斯估计依赖先验知识
贝叶斯估计在推断参数时,不仅利用观测数据,还融入参数的先验分布信
息,使估计结果更加合理。
2.贝叶斯估计具有可解释性
通过贝叶斯定理,贝叶斯估计可以计算参数的后验概率分布,提供直观的
参数不确定性估计。
3.贝叶斯估计能够处理小样本
相比于经典统计学方法,贝叶斯估计在样本量较小的情况下也能获得较好
的参数估计效果。
4.贝叶斯估计的迭代性
贝叶斯估计通常通过迭代方式更新后验分布,能够持续利用新观测数据来
改进参数估计。
 
                                                            生成模型:EM算法    
1.EM算法原理概述
EM算法通过迭代更新隐变量的期望,最大化观测数据的似然函数,常用于处理含
有隐变量的概率模型。
2.EM算法应用广泛
EM算法在机器学习领域得到广泛应用,包括高斯混合模型、隐马尔可夫模型等复杂模型的参数估计,表现出色。
3.EM算法收敛性保障
EM算法通过E步骤(求期望)和M步骤(最大化)的交替迭代,保证了似然函数单调增加,从而收敛到局部最优解
七.判别模型
                                                     
                                                           判别模型:极大似然估计
1.判别模型在分类中更高效
判别模型如SVM直接学习条件概率,避免了联合概率分布的复杂计算,因此在分类任务中表现出更高的效率和准确性
2.判别模型对特征选择敏感
判别模型如逻辑回归依赖于特征的线性组合,对特征选择敏感,合理的特征选择对模型性能至关重要
                                                           判别模型:条件概率分布
条件概率影响分类器性能:
通过条件概率分布,机器学习算法可以更准确地区分不同类别的样本,提高分类器的预测精度
条件概率揭示数据关联:
条件概率分布有助于揭示变量间的依赖关系,对于数据分析和特征选择具有重要意义
八.统计学习在实际中的应用
1.推荐系统精准化
统计学习理论在推荐系统中通过用户行为数据分析,精准预测用 户兴趣,提升推荐精准率和用户满意度。
2.信贷风险评估
银行利用统计学习模型,如逻辑回归、SVM等,对信贷申请人的 信用数据进行评估,有效预测违约风险,减少损失。
3.医疗图像诊断
统计学习算法在医疗领域用于图像识别,如深度学习模型可以辅 助医生对CT、MRI等图像进行快速准确的诊断。
4.股票趋势预测
基于统计学习的时间序列分析,通过分析历史股票数据,可以构 建模型预测未来股票价格的变动趋势,辅助投资决策。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值