1.3机器学习算法与流程
一、机器学习流程
1.机器学习分析人员需要掌握行业知识以了解业务流程、理解数据背后的隐含信息以合理解,读数据、从变化的角度和时间维度把握需求以确定使用哪些数据,这是数据分析的基础
2.机器学习的主要流程是明确分析目标、数据收集、数据预处理、建模分析、结果评估、部署使用以及学习更新
二、机器学习怎么做
1.明确数据分析目标
2.数据收集
3.数据预处理
4.数据建模
5.效果评估
6.部署使用、更新
三、机器学习常用算法
1.机器学习算法分类
2.分类算法
(1)回归分析是分析一个变量与其他一个(或几个) 变量之间的相关关系的统计方法
(2)分类就是通过分析训练集中的数据,为每个类 别做出准确的描述或建立分析模型或挖掘出分 类规则,然后用这个分类规则对其它数据对象进行分类。
(3)决策树、支持向量机、神经网络、朴素贝叶斯、 Bayes网络、k-最近邻等是几种常用的分类方法。
3.常用分类算法典型应用
4.聚类算法
(1)聚类分析是把一个给定的数据对象(样本) 集合分成不同的簇(组)。
(2) 聚类就是把整个数据分成不同的组,并使组与组之间的差距尽可大,组内数据的差异尽 可能小。
(3) K-means是一种常用的聚类算法,用户指定聚 类的类别数K,随机地选择K个对象作为K个初 始聚类中心。
(4)聚类是基于无监督学习的分类模型,按照数据内在结构特征进行聚集形成簇群。
(5)聚类与分类的主要区别:有无标签(监督学习与无监督学习的区别)。
(6) 聚类首先选择有效特征向量,然后按照距离函数进行相似度计算。
(7)聚类应用广泛 (客户群体特征、消费者行为分析、市场细分、交易数据分析 、动植物种群分类、医疗领域的疾病诊断、环境质量检测)。
(8)常见聚类算法
a、基于层次聚类(Hierarchical Method)
BIRCH(Balanced Iterative Reducing and Clustering Using Hierarchies)
CURE(Clustering Using Representatives)
b、基于划分的聚类
K均值(K-Means)
c、基于密度的聚类
DBSCAN(Density-based spatial clustering of applications with noise)
OPTICS(Ordering Points To Identify the Clustering Structure)
d、基于机器学习的聚类
e、基于约束的聚类
f、基于网络的聚类
四、神经网络
1、传统的神经网络为BP神经网络,基本网络结构为输入层、隐藏层和输出层,节点代表神经元, 边代表权重值,对输入值按照权重和偏置计算后将结果传给下一层,通过不断的训练修正权 重和偏置。
2、递归神经网络(RNN)、卷积神经网络(CNN)都在神经网络在深度学习上的变种。
3、神经网络的训练主要包括前向传输和反向传播。
4、神经网络的结果准确性与训练集的样本数量和分类质量有关。
5、神经网络是基于历史数据构建的分析模型,新数据产生时需要动态优化网络的结构和参数
五、数据挖掘常用算法
1、神经网络
(1)多层前馈神经网络
(2)常见的深度学习神经网络
(3)卷积神经网络
(4)循环神经网络
六、深度学习
1、深度学习是通过构建多个隐藏层和大量数据来学习特征,从而提升分类或预测的准确性。
2、与神经网络相比,层数更多,而且有逐层训练机制避免梯度扩散。
3、深度学习包括了 卷积神经网络(CNN) 、深度神经网络(DNN)、循环神经网络(RNN) 、对抗神经网络(GAN)。
七、回归分析
1、回归分析是一种研究自变量和因变量之间关系 的预测模型,用于分析当自变量发生变化时, 因变量的变化值
2、 回归分析可以用于定性预测分析和定量分析各 变量间的相关关系
3、 回归分析包括 (线性回归 、逻辑回归 、多项式回归 、逐步回归 、岭回归 、LASSO回归)。
八、数据可视化
数据可视化在机器学习中的作用:
(1)视觉是人类获得信息的最主要途径;
(2)可视化本身就是一种机器学习方法;
(3)可视化可以作为数据预处理的方法 或者是机器学习过程的表示方式;
(4)机器学习的结果也可以用可视化的形式表示。
九、关联分析
1、关联分析通过对数据集中某些属性同时出现的规律和模式来发 现其中的属性间的关联、相关、因果等关系,典型应用是购物篮分析。
2、关联分析包括Apriori算法和FP-Growth算法。
3、关联分析已经在客户购物行为分析、电子推荐、产品质量检测、 文档主题分析等得到了广泛应用
十、分布式机器学习
1、分布式机器学习(DML)是一种利用多个计算节点协同工作,共同完成机器学习任务的算法和系统。
2、其核心思想是将数据和计算任务分发到多个节点上, 然后协调它们的工作以完成模型训练
十一、数据挖掘常用算法
十二、数据质量问题与预处理
1、数据质量要求数据是完整的和真实的,并且具有一致性和可靠性
2、“垃圾进,垃圾出”
3、数据预处理占用整个机器学习项目60%的工作量
4、问题
(1)数据量较少
(2)数据量过多
(3)维度灾难
(4) 数据不完整
(5)异常数据
(6)重复数据
(7)数据不一致
十三、数据挖掘
(一)数据量较少
1、数据挖掘需要一定的数据量作支撑,尽量覆盖领域。
2、数据量增多,其中的规律会越发明显,也更易发现与分析目标相关的因素 (神经网络 、深度学习 )
3、数据样本需要有足够的覆盖范围,需要覆盖与分析目标相关的维度。
(二)数据量过多
1、数据量过多时,对全部数据集进行分析要耗费更多的计算资源,要求硬件配置较高,可应用数 据采样技术随机提取样本子集。
2、 对海量的同质化数据,可通过聚集技术按照时间、空间等属性进行均值等汇总,减少数据数量。
3、 数据集不平衡问题可能导致出现较大的结果误差,因此要对数据集应用采样技术或对异常数 据进行复制,提高其占比。
十四、维度灾难
1、当数据中的自变量较多时,会出现维度灾难问题。
2、 特别是在矩阵数据中,其中冗余变量占比比较高时,可用数据变成稀疏矩阵,在分类算 法处理时就没办法可靠地进行类别划分,在聚类算法中则容易使聚类质量下降。
3、 可采用线性代数的相关方法将数据从高维空间影射到低维空间中 (主成分分析(PCA) 、奇异值分解(SVD))
十五、数据不完整
1、数据的种类要多,种类多少直接影响数据挖掘方法的选择,可以通过编写程 序抓取外部数据作为补充。
2、数据缺失也是数据不完整的一种表现,包括了空白值、空值、无效值等。
3、 需要针对不同原因对缺失值进行数据预处理,有多种方法可以操作
(1)采用众数、中位数、均值、最短距离等方法进行人为补充
(2)通过回归或贝叶斯定理等预测缺失值
(3)删除含有缺失值的数据
十六、异常数据
1、异常数据分为错误的数据和小概率 事件(又称稀有事件)两类
2、 对错误数据,需要将其剔除或修正 ( 对稀有事件,如信用卡欺诈行为、 垃圾邮件,需要重点分析其特征)
2.1机器学习中的统 计学习理论
一、统计分析的基本概念
(一)统计学习的定义
1、统计学习基于数据分布
统计学习理论强调从数据中学习,通过估计数据的概率分布 来构建预测模型,实现知识发现。
2、样本规模影响模型精度
较大的样本规模能够提供更多的信息,使得学习到的模型更 为准确和泛化能力强。
3、偏差与方差权衡重要
统计学习中偏差表示模型的准确性,方差反映模型的稳定性, 合适的权衡是提高模型性能的 关键。
4、正则化避免过拟合
通过添加正则化项到模型的学习目标中,可以减少模型的复 杂度,从而避免模型在训练数 据上过度拟合。
(二)监督学习、无监督学习、半监督学习、强化学习
1.监督学习需标签数据
监督学习依赖于带有已知标签的数据集进行模型训练,通过比较预测值与真实值调 整模型参数。
2.无监督学习探索结构
无监督学习无需标签数据,通过聚类、降维等技术探索数据内在结构和隐藏模式。
3.半监督学习结合二者
半监督学习利用有限的标签数据和大量无标签数据共同训练模型,提高学习效率和 泛化能力。
4.强化学习试错优化
强化学习通过与环境的交互和试错,不断调整策略以获得最大化累积回报,适用于 序列决策问题。
二、统计学习方法三要素
(一)数据决定模型上限
在机器学习中,数据的丰富性和 质量直接影响统计学习模型的性 能上限。高质量数据能训练出更 准确的模型。
(二)算法优化模型性能
统计学习算法的选择和优化对于 提升模型性能至关重要。合适的 算法能更有效地从数据中提取特 征,提升预测精度。
(三)策略
1、策略选择影响模型性能
在机器学习中,策略的选择直接关 系到模型泛化能力的高低。合理选 择训练算法、参数调整和评估准则 能有效提升模型性能。
2、数据分布影响策略有效性
统计学习理论表明,数据的真实分 布影响学习策略的有效性。适应数 据分布的策略能够减少过拟合,提 高模型的准确性。
3、特征选择优化策略表现
策略实施前的特征选择能够显著降 低数据的维度,选择有信息量的特 征可以显著提升机器学习策略的性 能表现。
(四)算法
1、统计学习算法的重要性
统计学习算法是机器学习的基石,通过数据驱动, 自动学习数据中的模式和规律,实现智能化预测 和决策。
2、算法复杂性与过拟合
随着算法复杂性的增加,虽能拟合更复杂的数据, 但过拟合风险也增大,导致泛化能力下降,需通 过正则化等技术平衡。
3、数据量与算法性能
大数据时代,充足的数据能够支持更复杂算法的 训练,提升模型的准确率和鲁棒性。
4、非参数方法与泛化能力
非参数方法如核方法和随机森林等,因其不依赖 数据分布假设,展现出强大的泛化能力和适应性。
三、模型假设与验证
(一)模型的假设条件
1.模型假设的重要性
在机器学习中,模型假设是预测准确性的基石。例如,线性回归假设变量间存在线性关系, 通过数据验证假设,可确保模型的有效应用。
2.数据分布影响假设
模型假设需符合实际数据分布,如支持向量机假设数据在高维空间可分,数据分布的多样 性直接影响假设的合理性。
3.交叉验证验证假设
通过交叉验证技术,如K折交叉验证,可以评估模型假设在不同数据集上的泛化能力,确 保模型假设的稳健性
(二)交叉验证的原理
1、交叉验证防过拟合
交叉验证通过将数据集划分为训练 集和验证集,有效防止了模型在训 练集上过拟合,提高了模型在未知 数据上的泛化能力。
2、交叉验证评估模型性能
通过多次交叉验证并计算平均性能 指标,能够准确评估机器学习模型 的性能,为模型选择和调参提供依据。
3、交叉验证适用多种场景
无论是小规模数据集还是大规模数 据集,交叉验证都能有效应用,特 别在数据集较小时,通过交叉验证 可充分利用数据,提高模型精度。
四、模型评估与选择
(一)经验误差与过拟合
1.交叉验证避免过拟合
交叉验证通过多次分割数据训练和测试模型,有效评估模型 的泛化能力,避免选择过度拟合训练数据的模型。
2.准确性与泛化性平衡
在模型评估中,我们追求的是不仅在训练集上表现良好,更 要在未知数据上保持准确,实现准确性与泛化性的最佳平衡。
3.ROC曲线全面评估
ROC曲线综合考虑了不同分类阈值下的真正例率和假正例率, 是评估二分类模型性能的全面工具。
(二)误差分析
1、偏差与方差平衡
机器学习中的误差可分解为偏差和方差。低偏差表示模型接 近真实关系,低方差则反映模型对新数据泛化能力强。平衡 二者是优化关键。
2、过拟合与欠拟合
过拟合导致在训练 过拟合与欠拟合 数据上性能佳但在新数据上差,欠拟合则整体性能不佳。
3、使用验证集调参
利用独立的验证集评估模型性能,通过调整参数来减少验证误差,能有效防止过拟合,提升模型泛化能力。
(三)模型选择准则
1.偏差-方差权衡
模型选择时需权衡偏差与方差,简单模型易产生高偏差但低方差,复杂模型则相反, 需通过数据性能评估确定最优模型。
2.交叉验证防过拟合
通过交叉验证将数据集分割成训练集和测试集,评估模型在未见数据上的性能,减少 过拟合,选择更泛化的模型。
3.奥卡姆剃刀原则
在模型选择时,若无足够数据或理论支持复杂模型更优,则选择最简单的模型,即 “如无必要,勿增实体”
五、生成模型
(一)贝叶斯估计
1.贝叶斯估计依赖先验知识
贝叶斯估计在推断参数时,不仅利用观测数据,还融入参数的先验分布信 息,使估计结果更加合理。
2.贝叶斯估计具有可解释性
通过贝叶斯定理,贝叶斯估计可以计算参数的后验概率分布,提供直观的 参数不确定性估计。
3.贝叶斯估计能够处理小样本
相比于经典统计学方法,贝叶斯估计在样本量较小的情况下也能获得较好 的参数估计效果。
4.贝叶斯估计的迭代性
贝叶斯估计通常通过迭代方式更新后验分布,能够持续利用新观测数据来 改进参数估计。
(二)EM算法
1.EM算法原理概述
EM算法通过迭代更新隐变量的期望,最大化观测数据的似然函数,常用于处理含 有隐变量的概率模型。
2.EM算法应用广泛
EM算法在机器学习领域得到广泛应用,包括高斯混合模型、隐马尔可夫模型等复 杂模型的参数估计,表现出色。
3.EM算法收敛性保障
EM算法通过E步骤(求期望)和M步骤(最大化)的交替迭代,保证了似然函数 单调增加,从而收敛到局部最优解。
六、判别模型
(一)极大似然估计
1、判别模型在分类中更高效
判别模型如SVM直接学习条件概率,避免了联合概率分布的复杂计算,因此在分类任 务中表现出更高的效率和准确性。
2、判别模型对特征选择敏感
判别模型如逻辑回归依赖于特征的线性组合,对特征选择敏感,合理的特征选择对模 型性能至关重要
(二)条件概率分布
1、条件概率影响分类器性能
通过条件概率分布,机器学习算法可以 更准确地区分不同类别的样本,提高分 类器的预测精度。
2、条件概率揭示数据关联
条件概率分布有助于揭示变量间的依赖 关系,对于数据分析和特征选择具有重 要意义。
(三)Logistic回归与最大熵模型
1.Logistic回归与分类决策
Logistic回归通过转换线性模型输出为概率分布,适用于二分类问题,并给出明确的分 类决策边界。
2.最大熵原理与信息最大化
最大熵模型基于最大熵原理,确保模型在符合已知约束下,对于未知数据保持最大不确 定性,实现信息最大化。
3.特征选择与模型性能
Logistic回归和最大熵模型对特征选择敏感,合理的特征组合和选择能显著提升模型的 分类性能。
4.正则化与模型泛化
在Logistic回归和最大熵模型中加入正则化项,能有效防止过拟合,提高模型的泛化能 力,尤其对于高维数据至关重要。