机器学习算法与流程
机器学习流程
1.机器学习是一门入门容易但精通难的学科
2.机器学习分析人员需要掌握行业知识以了解业务流程、理解数据背后的隐含信息以合理解
读数据、从变化的角度和时间维度把握需求以确定使用哪些数据,这是数据分析的基础
3.机器学习的主要流程是明确分析目标、数据收集、数据预处理、建模分析、结果评估、部
署使用以及学习更新。
机器学习怎么做
明确数据分析目标
需要与用户进行沟通来了解用户的需求和要求,在对用户进行详细分析从而进行相关服务
数据收集
收集相关数据以作为机器学习充足且全面的高质量学习的基础
数据预处理
一般数据可能存在着各类问题需要进行数据清理,以保证数据的质量
数据建模
数据建模是机器学习的核心部分,选择合适的建模方法或算法是必要的,因为算法本身没有绝对的好坏,不同的积极学习算法都有各自的使用范围,所以算法的好坏需要实验比较确定
效果评估
样本测试、现场抽样实验等
部署使用 更新
有效的机器学习结果会改善客户业务决策的效果,给客户带来价值。因为业务可能发生变化,在部署过程中需要更新机器学习的模型等。机器学习不是一劳永逸的事情。
机器学习常用算法
机器学习算法分类
机器学习算法分为:监督学习、无监督学习和强化学习
分类算法
决策树、支持向量机、神经网络、朴素贝叶斯、Bayes网络、k-最近邻等是几种常用的分类方法。
常用分类算法典型应用
神经网络
数据挖掘常用算法
神经网络和深度学习
多层前馈神经网络、常见的深度学习神经网络、卷积神经网络、循环神经网络
深度学习
深度学习算法
聚类算法
聚类就是把整个数据分成不同的组,并使组 与组之间的差距尽可大,组内数据的差异尽可能小
常见的聚类算法
层次聚类、划分的聚类、密度的聚类、机器学习的聚类、约束的聚类、网络的聚类
回归分析
数据可视化
关联分析
分布式机器学习
数据挖掘常用算法
推荐算法
基于矩阵分解的推荐算法(能够发现潜在用户和物品特征,但对于新用户和新物品效果较差)
机器学习常见问题与预处理
数据量较少
数据量过多
维度灾难
当数据中的自变量较多时,会出现维度灾难问题。解决方法:主成分分析、奇异值分解
数据不完整
异常数据
数据分析常见陷进(1)
错误理解相关关系、错误的比较对象 、数据抽样
数据分析常见陷进(2)
忽略或关注极值、相信巧合数据、数据未做归一化、忽视第三方数据 、过度关心统计指标
机器学习方法的选择
机器学习中的统计学习理论
统计分析的基本概念
统计学习的定义
统计学习基于数据分布、样本规模影响模型精度、偏差与方差权衡重要、正则化避免过拟合, 监督学习需标签数据、无监督学习探索结构、半监督学习结合前二者、强化学习试错优化。 生成模型和判别模型: 生成模型:通过学习数据的联合概率分布来生成;适用于数据生成、异常检测等 判别模型:直接学习不同类别间的最优决策边界;在分类任务中表现优越
统计学习方法三要素
策略
策略选择影响模型性能、数据分布影响策略有效性、特征选择优化策略表现
算法
统计学习算法的重要性、算法复杂性与过拟合、数据量与算法性能、非参数方法与泛化能力
模型假设与验证
模型的假设条件
模型假设的重要性、数据分布影响假设、交叉验证假设 交叉验证的原理:交叉验证防过拟合、交叉验证评估模型性能、交叉验证适用多种场景
模型评估与选择
经验误差与过拟合:交叉验证避免过拟合、准确性与泛化性平衡、ROC曲线全面评估
模型选择准则
偏差-方差权衡、交叉验证防过拟合、奥卡姆剃刀原则
生成模型
生成模型与数据分布、生成模型与分类比较、生成模型在深度学习中的应用、生成模型的评估标准
贝叶斯估计
贝叶斯估计依赖先验知识、贝叶斯估计具有可解性、贝叶斯估计能够处理小样本、贝叶斯估计的迭代性
EM算法
EM算法原理概述、EM算法应用广泛、EM算法收敛性保障
判别模型
极大似然估计
判别模型在分类中更高效、判别模型对特征选择敏感
条件概率分布
统计概率影响分类器性能、统计概率揭示数据关联
统计学习在实际中的应用
领域应用概述
推荐系统精准化:统计学习理论在推荐系统中通过用户行为数据分析,精准预测用户兴趣,提升推荐精准率和用户满意度。 信贷风险评估:银行利用统计学习模型,如逻辑回归、SVM等,对信贷申请人的信用数据进估有效预测违约风险,减少损失。 医疗图像诊断:统计学习算法在医疗领域用于图像识别,如深度学习模型可以辅助医生对CT、MRI等图像进行快速准确的诊断。
股票趋势预测:基于统计学习的时间序列分析,通过分析历史股票数据,可以构建模型预测未来股票价格的变动趋势,辅助投资决策。
数据分析案例
特征选择优化性能 、模型复杂与泛化能力、正则防止过拟合、交叉验证评估模型