机器学习概论

一:机器学习与算法

(一):机器学习的主要流程有:1:明确分析目标;2:数据收集:;3:数据预处理:;4:建模分析:;5:结果评估;6:部署使用;7:以及学习更新;

1:明确目标分析:需要与用户进行充分的沟通,满足客户需求,明确数据目标

2:数据收集:收集相关的数据(内部业务系统的数据、外部数据),充足、全面的高质量数据是机器学习的基础;

3:数据预处理:数据可能存在噪声,不一致,异常,个人隐私保护等问题,所以保证数据质量很关键;

4:数据建模:

使用精巧复杂的分析方法从数据中提取知识,包括选择建模技术、生成测试设计以及构建和评估模型;
5:效果评估:样本测试,现场抽样试验;
6:部署使用,更新:
有效的机器学习结果会改善客户业务决策的效果,给客户带
来价值,机器学习是递增式学习
(二):机器学习的常用算法
1:分类算法:
回归分析是分析一个变量与其他一个(或几个)变量之间的相关关系的统计方法。
分类就是通过分析训练集中的数据,为每个类别做出准确的描述或建立分析模型或挖掘出分
类规则,然后用这个分类规则对其它数据对象进行分类。
决策树、支持向量机、神经网络、朴素贝叶斯、
Bayes 网络、 k- 最近邻 等是几种常用的分类方法。
2:聚类算法:
聚类分析是把一个给定的数据对象(样本)集合分成不同的簇,聚类就是把整个数据分成不同的组,并使组与组之间的差距尽可大,组内数据的差异尽可能小, K-means 是一种常用的聚类算法
聚类与分类的主要区别:有无标签(监督学习与无监督学习的区别)。
3:常见聚类方法:基于层次聚类,基于划分的聚类(k均值(k-Means)),基于密度的聚类,基于机器学习的聚类,基于约束的聚类,基于网络的聚类
(三)神经网络: 递归神经网络(RNN)、卷积神经网络(CNN),传统的神经网络为BP神经网络,基本网络结构为输入层、隐藏层和输出层,节点代表神经元,边代表权重值,神经网络的训练主要包括 前向传输 反向传播。
(四)数据挖掘常用算法:神经网络和深度学习,多层前馈网络,常见的深度学习神经网络,卷积神经网络,循环神经网络
深度学习:卷积神经网络(CNN) 深度神经网络(DNN) 循环神经网络(RNN) 对抗神经网络(GAN)
回归分析:回归分析 是一种研究自变量和因变量之间关系的预测模型,包括线性回归,逻辑回归
数据可视化:可视化可以作为机器学习的过程
关联分析: 通过对数据集中某些属性同时出现的规律和模式属性间的关联、相关、因果等关系,包括Apriori 算法,FP-Growth算法是
分布式机器学习:分布式机器学习(DML)是一种利用多个计算机节点协同工作,核心思想是将数据和计算任务分发到多个节点上;
Apache Spark MLlib :基于内存的 DML 框架,提供了传统机器学习算法的分布式实现。
GraphLab Apache Spark GraphX :图并行计算平台,提供了可扩展的机器学习工具包。
DMTK :微软发布的 DML 工具包,支持数据并行化的统一接口等。
(五)机器学习常见问题:1:数据质量问题与预处理:数据量较少 数据量较多,维度灾难,数据不完整,异常数据,重复数据,数据不一致;
2:数据不完整:数据种类要多,空白值 空值 无效值等,通过回归或贝叶斯定理等预测缺失值,删除含有缺失值的数据;
3:异常数据:分为错误的数据和小概率事件
4:数据分析常见陷阱:错误理解相关关系,错误的比较对象,数据抽样,忽略或关注极值,相信巧合数据,数据未做归一化,忽视第三方数据,过度关心统计指标
5:机器学习的选择方法:监督式学习或者无监督室学习,学习各类机器学习方法的特性,反复调整参数。

二:机器学习中的统计学习理论

(一)统计分析的基本概念:(1)统计学习的定义:1:统计学习基于数据分布;

2:样本规模影响模型精度;3:偏差与方差权衡重要;4:正则化避免过拟合;

(2)1:监督学习需要标签数据

2:无监督学习探索结构

3:半监督学习结合二者

4:强化学习试错试优

(3):生成模型和判别模型:生成模型如朴素贝叶斯,隐马尔可夫模型,能揭示数据间的内在关系,决策边界;判别模型如支持向量机,逻辑回归,最优决策边界,对分类问题高效且准确,生成模型适用于数据生成,异常检测等场景,而判别模型适用于数据特性和任务需求

(二):统计学习方法三要素

(1)模型:数据决定模型上限,算法优化模型性能

(2)策略:1:策略选择影响模型性能;2:数据分布影响策略有效性;3:特征选择优化策略表现

(3)算法:1:统计学习算法的重要性;2:数据量与算法性能;3:算法复杂性与过拟化;4:非参数方法与泛华能力

(:三)模型假设与验证

(1)模型的假设条件:1:模型假设的重要性;2:数据分布影响假设;3:交叉验证验证假设

(2)交叉验证的原理:1:交叉验证防止过拟化,数据集划分为验证集和训练集;2:交叉验证评估模型性能,多次交叉验证及计算平均性能指标,为模型选择和调参

(3)交叉验证适用于多种原理

(四)模型评估与选择

(1)经验误差与过拟化 1:交叉验证避免过拟化

2:准确性与泛化性平衡;3:ROC曲线全面评估

(2)误差分析 1:偏差与方差平衡;2:过拟和和欠拟合;3:使用验证集调参

(3)模型选择准则

1:偏差-方差权衡;2:交叉验证防止过拟和;3:奥卡姆提刀原则

(五)生成模型

生成模型与数据分布;生成模型与分类器比较;生成模型在深度还原中的应用;生成模型的评估标准

生成模型:贝叶斯估计

(1):贝叶斯估计依赖先验知识;2:具有可解释性;3:能够处理小样本;4:贝叶斯估计的迭代性

(2)生成模型:EM算法

1:EM算法原理概括;2:EM算法应用广泛;3:EM算法收敛性保障

(六)判别模型

(1)极大似然估计

1:在分类中更高效;2:对特征选择敏感

(2)条件概率分布 1:影响分类器性能;2:揭示数据关联

Logistic回归与最大熵模型

分类决策;最大熵原理与信息最大化;特征选择与模型性能;正则化与模型泛化

(七)统计学习在实际中的应用

1:推荐系统精确化;2:信贷风险评估;3:医疗图像诊断;4:股票趋势预测

数据分析案例:特征选择优化性能;模型复杂度与泛化能力;正则化防止过拟化交叉验证评估模型

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值