一:机器学习与算法
(一):机器学习的主要流程有:1:明确分析目标;2:数据收集:;3:数据预处理:;4:建模分析:;5:结果评估;6:部署使用;7:以及学习更新;
1:明确目标分析:需要与用户进行充分的沟通,满足客户需求,明确数据目标
2:数据收集:收集相关的数据(内部业务系统的数据、外部数据),充足、全面的高质量数据是机器学习的基础;
3:数据预处理:数据可能存在噪声,不一致,异常,个人隐私保护等问题,所以保证数据质量很关键;
4:数据建模:
二:机器学习中的统计学习理论
(一)统计分析的基本概念:(1)统计学习的定义:1:统计学习基于数据分布;
2:样本规模影响模型精度;3:偏差与方差权衡重要;4:正则化避免过拟合;
(2)1:监督学习需要标签数据
2:无监督学习探索结构
3:半监督学习结合二者
4:强化学习试错试优
(3):生成模型和判别模型:生成模型如朴素贝叶斯,隐马尔可夫模型,能揭示数据间的内在关系,决策边界;判别模型如支持向量机,逻辑回归,最优决策边界,对分类问题高效且准确,生成模型适用于数据生成,异常检测等场景,而判别模型适用于数据特性和任务需求
(二):统计学习方法三要素
(1)模型:数据决定模型上限,算法优化模型性能
(2)策略:1:策略选择影响模型性能;2:数据分布影响策略有效性;3:特征选择优化策略表现
(3)算法:1:统计学习算法的重要性;2:数据量与算法性能;3:算法复杂性与过拟化;4:非参数方法与泛华能力
(:三)模型假设与验证
(1)模型的假设条件:1:模型假设的重要性;2:数据分布影响假设;3:交叉验证验证假设
(2)交叉验证的原理:1:交叉验证防止过拟化,数据集划分为验证集和训练集;2:交叉验证评估模型性能,多次交叉验证及计算平均性能指标,为模型选择和调参
(3)交叉验证适用于多种原理
(四)模型评估与选择
(1)经验误差与过拟化 1:交叉验证避免过拟化
2:准确性与泛化性平衡;3:ROC曲线全面评估
(2)误差分析 1:偏差与方差平衡;2:过拟和和欠拟合;3:使用验证集调参
(3)模型选择准则
1:偏差-方差权衡;2:交叉验证防止过拟和;3:奥卡姆提刀原则
(五)生成模型
生成模型与数据分布;生成模型与分类器比较;生成模型在深度还原中的应用;生成模型的评估标准
生成模型:贝叶斯估计
(1):贝叶斯估计依赖先验知识;2:具有可解释性;3:能够处理小样本;4:贝叶斯估计的迭代性
(2)生成模型:EM算法
1:EM算法原理概括;2:EM算法应用广泛;3:EM算法收敛性保障
(六)判别模型
(1)极大似然估计
1:在分类中更高效;2:对特征选择敏感
(2)条件概率分布 1:影响分类器性能;2:揭示数据关联
Logistic回归与最大熵模型
分类决策;最大熵原理与信息最大化;特征选择与模型性能;正则化与模型泛化
(七)统计学习在实际中的应用
1:推荐系统精确化;2:信贷风险评估;3:医疗图像诊断;4:股票趋势预测
数据分析案例:特征选择优化性能;模型复杂度与泛化能力;正则化防止过拟化交叉验证评估模型