机器学习笔记

机器学习算法与流程

机器学习流程

1.机器学习是一门入门容易但精通难的学科
2.机器学习分析人员需要掌握行业知识以了解业务流程、理解数据背后的隐含信息以合理解
读数据、从变化的角度和时间维度把握需求以确定使用哪些数据,这是数据分析的基础
3.机器学习的主要流程是明确分析目标、数据收集、数据预处理、建模分析、结果评估、部
署使用以及学习更新。

机器学习怎么做
明确数据分析目标

需要与用户进行沟通来了解用户的需求和要求,在对用户进行详细分析从而进行相关服务

数据收集

收集相关数据以作为机器学习充足且全面的高质量学习的基础

数据预处理

一般数据可能存在着各类问题需要进行数据清理,以保证数据的质量

数据建模

数据建模是机器学习的核心部分,选择合适的建模方法或算法是必要的,因为算法本身没有绝对的好坏,不同的积极学习算法都有各自的使用范围,所以算法的好坏需要实验比较确定

效果评估

样本测试、现场抽样实验等

部署使用      更新

有效的机器学习结果会改善客户业务决策的效果,给客户带来价值。因为业务可能发生变化,在部署过程中需要更新机器学习的模型等。机器学习不是一劳永逸的事情。

机器学习常用算法
机器学习算法分类

机器学习算法分为:监督学习、无监督学习和强化学习

分类算法

决策树、支持向量机、神经网络、朴素贝叶斯、Bayes网络、k-最近邻等是几种常用的分类方法。

常用分类算法典型应用

神经网络

1.传统的神经网络为BP神经网络,基本网络结构为输入层、隐藏层和输出层,节点代表神经元,
边代表权重值,对输入值按照权重和偏置计算后将结果传给下一层,通过不断的训练修正权
重和偏置。递归神经网络(RNN)、卷积神经网络(CNN)都在神经网络在深度学习上的变种。
2.神经网络的训练主要包括 前向传输 反向传播
3.神经网络的结果准确性与训练集的样本数量和分类质量有关。
4.神经网络是基于历史数据构建的分析模型,新数据产生时需要动态优化网络的结构和参数。
数据挖掘常用算法
神经网络和深度学习

多层前馈神经网络、常见的深度学习神经网络、卷积神经网络、循环神经网络

深度学习
深度学习是通过构建多个隐藏层和大量数据来学习特征,从而提升分类或预测 的准确性。
与神经网络相比,层数更多,而且有逐层训练机制避免梯度扩散。
 深度学习包括了:   卷积神经网络(CNN)、深度神经网络(DNN)、循环神经网络(RNN)、对抗神经网络(GAN)
  深度学习中训练集、开发集、测试集的样本比例一般为6:2:2、7:2:1、8:1:1。 常见的权重更新方     式包括SGD with Momentum。
深度学习算法
聚类算法

聚类就是把整个数据分成不同的组,并使组 与组之间的差距尽可大,组内数据的差异尽可能小

常见的聚类算法

层次聚类、划分的聚类、密度的聚类、机器学习的聚类、约束的聚类、网络的聚类

回归分析
回归分析 是一种研究自变量和因变量之间关系 的预测模型 用于分析当自变量发生变化时,因变量的变化值
回归分析可以用于定性预测分析和定量分析各 变量间的相关关系
回归分析包括: 线性回归 、 逻辑回归 、多项式回归 、逐步回归 、岭回归 、LASSO回归
数据可视化
(1)视觉是人类获得信息的最主要途径;(2)可视化本身就是一种机器学习方法;
(3)可视化可以作为数据预处理的方法或者是机器学习过程的表示方式。
(4)机器学习的结果也可以用可视化的形式表示。
关联分析

关联分析(Associative Analysis )通过对 数据集中某些属性同时出现的规律和模式 来发
现其中的 属性间的关联、相关、因果等关系 ,典型应用是购物篮分析。

分布式机器学习

分布式机器学习 是一种利用多个计算节点协同工作,共同完成机器学习任务的算法和系统。
其核心思想是 将数据和计算任务分发到多个节点上, 然后协调它们的工作以完成模型训练。
数据挖掘常用算法
推荐算法

基于矩阵分解的推荐算法(能够发现潜在用户和物品特征,但对于新用户和新物品效果较差)

机器学习常见问题与预处理
数据量较少、 数据量过多、 维度灾难 、 数据不完整、 异常数据 、 重复数据、 数据不一致
数据量较少

数据挖掘需要一定的数据量作支撑,尽量覆盖领域。
数据量过多
数据量过多时,对全部数据集进行分析 要耗费更多的计算资源,要求硬件配置较高 ,可应用数据采样技术随机提取样本子集
维度灾难

当数据中的自变量较多时,会出现维度灾难问题。解决方法:主成分分析、奇异值分解

数据不完整
数据的种类要多 种类多少直接影响数据挖掘方法的选择,可以通过编写程序抓取外部数据作为补充, 数据缺失 也是数据不完整的一种表现,包括了 空白值、空值、无效值 等。
异常数据
异常数据分为 错误的数据 小概率 事件(又称稀有事件)两类;对 错误数据 ,需要将其 剔除或修正对 稀有事件 ,如 信用卡欺诈行为、 垃圾邮件,需要重点分析其特征
数据分析常见陷进(1)

错误理解相关关系、错误的比较对象 数据抽样

数据分析常见陷进(2)

忽略或关注极值、相信巧合数据、数据未做归一化、忽视第三方数据 过度关心统计指标

机器学习方法的选择
理解目标要求是机器学习方法选择的关键,首先要对问 题进行分类,如果数据集中有标签则可进行 监督式学习 , 反之可应用 无监督学习 熟悉各类机器学习方法的特性 是分析方法选择的基础,不仅需要了解如何使用各类分析算法,还要了解其实现的原理:在选择模型前,要对数据进行探索性分析、机器学习方法选择过程中可在几个可能模型中分析选出较优的模型、选择模型后,比较不同模型的拟合程度、 反复调整参数 使模型结果趋于稳定

机器学习中的统计学习理论

统计分析的基本概念

统计学习的定义

统计学习基于数据分布、样本规模影响模型精度、偏差与方差权衡重要、正则化避免过拟合,        监督学习需标签数据、无监督学习探索结构、半监督学习结合前二者、强化学习试错优化。          生成模型和判别模型:                                                                                                                         生成模型:通过学习数据的联合概率分布来生成;适用于数据生成、异常检测等                             判别模型:直接学习不同类别间的最优决策边界;在分类任务中表现优越

统计学习方法三要素

策略

策略选择影响模型性能、数据分布影响策略有效性、特征选择优化策略表现

算法

统计学习算法的重要性、算法复杂性与过拟合、数据量与算法性能、非参数方法与泛化能力

模型假设与验证

模型的假设条件

模型假设的重要性、数据分布影响假设、交叉验证假设                                                                        交叉验证的原理:交叉验证防过拟合、交叉验证评估模型性能、交叉验证适用多种场景

模型评估与选择

经验误差与过拟合:交叉验证避免过拟合、准确性与泛化性平衡、ROC曲线全面评估

模型选择准则

偏差-方差权衡、交叉验证防过拟合、奥卡姆剃刀原则

生成模型

生成模型与数据分布、生成模型与分类比较、生成模型在深度学习中的应用、生成模型的评估标准

贝叶斯估计

贝叶斯估计依赖先验知识、贝叶斯估计具有可解性、贝叶斯估计能够处理小样本、贝叶斯估计的迭代性

EM算法

EM算法原理概述、EM算法应用广泛、EM算法收敛性保障

判别模型

极大似然估计

判别模型在分类中更高效、判别模型对特征选择敏感

条件概率分布

统计概率影响分类器性能、统计概率揭示数据关联

统计学习在实际中的应用

领域应用概述

推荐系统精准化:统计学习理论在推荐系统中通过用户行为数据分析,精准预测用户兴趣,提升推荐精准率和用户满意度。                                                                                                                  信贷风险评估:银行利用统计学习模型,如逻辑回归、SVM等,对信贷申请人的信用数据进估有效预测违约风险,减少损失。                                                                                                            医疗图像诊断:统计学习算法在医疗领域用于图像识别,如深度学习模型可以辅助医生对CT、MRI等图像进行快速准确的诊断。
股票趋势预测:基于统计学习的时间序列分析,通过分析历史股票数据,可以构建模型预测未来股票价格的变动趋势,辅助投资决策。

数据分析案例   

特征选择优化性能 、模型复杂与泛化能力、正则防止过拟合、交叉验证评估模型                                                                          

统计学习理论强调从数据中学
习,通过估计数据的概率分布
来构建预测模型,实现知识发
现。
较大的样本规模能够提供更多
的信息,使得学习到的模型更
为准确和泛化能力强。
统计学习中偏差表示模型的准
确性,方差反映模型的稳定性,
合适的权衡是提高模型性能的
关键。
通过添加正则化项到模型的学
习目标中,可以减少模型的复
杂度,从而避免模型在训练数
据上过度拟合。
统计学习理论强调从数据中学
习,通过估计数据的概率分布
来构建预测模型,实现知识发
现。
较大的样本规模能够提供更多
的信息,使得学习到的模型更
为准确和泛化能力强。
统计学习中偏差表示模型的准
确性,方差反映模型的稳定性,
合适的权衡是提高模型性能的
关键。
通过添加正则化项到模型的学
习目标中,可以减少模型的复
杂度,从而避免模型在训练数
据上过度拟合。
统计学习理论强调从数据中学
习,通过估计数据的概率分布
来构建预测模型,实现知识发
现。
较大的样本规模能够提供更多
的信息,使得学习到的模型更
为准确和泛化能力强。
统计学习中偏差表示模型的准
确性,方差反映模型的稳定性,
合适的权衡是提高模型性能的
关键。
通过添加正则化项到模型的学
习目标中,可以减少模型的复
杂度,从而避免模型在训练数
据上过度拟合。
统计学习理论强调从数据中学
习,通过估计数据的概率分布
来构建预测模型,实现知识发
现。
较大的样本规模能够提供更多
的信息,使得学习到的模型更
为准确和泛化能力强。
统计学习中偏差表示模型的准
确性,方差反映模型的稳定性,
合适的权衡是提高模型性能的
关键。
通过添加正则化项到模型的学
习目标中,可以减少模型的复
杂度,从而避免模
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值