机器学习概论

最新推荐文章于 2024-10-06 23:19:48 发布

DYKdyk511

最新推荐文章于 2024-10-06 23:19:48 发布

阅读量627

点赞数 10

文章标签：机器学习人工智能

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/DYKdyk511/article/details/141998729

版权

一：机器学习与算法

（一）：机器学习的主要流程有：1：明确分析目标；2：数据收集:；3：数据预处理:；4：建模分析:；5：结果评估；6：部署使用；7：以及学习更新；

1：明确目标分析：需要与用户进行充分的沟通，满足客户需求，明确数据目标

2：数据收集：收集相关的数据（内部业务系统的数据、外部数据）,充足、全面的高质量数据是机器学习的基础;

3:数据预处理：数据可能存在噪声，不一致，异常，个人隐私保护等问题，所以保证数据质量很关键；

4：数据建模：

使用精巧复杂的分析方法从数据中提取知识，包括选择建模技术、生成测试设计以及构建和评估模型；

5：效果评估：样本测试，现场抽样试验；

6：部署使用，更新：

有效的机器学习结果会改善客户业务决策的效果，给客户带

来价值，机器学习是递增式学习

（二）：机器学习的常用算法

1：分类算法：

回归分析是分析一个变量与其他一个（或几个）变量之间的相关关系的统计方法。

 分类就是通过分析训练集中的数据，为每个类别做出准确的描述或建立分析模型或挖掘出分

类规则，然后用这个分类规则对其它数据对象进行分类。

 决策树、支持向量机、神经网络、朴素贝叶斯、

Bayes 网络、 k- 最近邻等是几种常用的分类方法。

2：聚类算法：

聚类分析是把一个给定的数据对象（样本）集合分成不同的簇，聚类就是把整个数据分成不同的组，并使组与组之间的差距尽可大，组内数据的差异尽可能小， K-means 是一种常用的聚类算法

聚类与分类的主要区别：有无标签（监督学习与无监督学习的区别）。

3：常见聚类方法：基于层次聚类，基于划分的聚类（k均值（k-Means））,基于密度的聚类，基于机器学习的聚类，基于约束的聚类，基于网络的聚类

（三）神经网络：递归神经网络（RNN）、卷积神经网络（CNN），传统的神经网络为BP神经网络，基本网络结构为输入层、隐藏层和输出层，节点代表神经元，边代表权重值，神经网络的训练主要包括 前向传输 和 反向传播。

（四）数据挖掘常用算法：神经网络和深度学习，多层前馈网络，常见的深度学习神经网络，卷积神经网络，循环神经网络

深度学习：卷积神经网络（CNN）深度神经网络（DNN）循环神经网络（RNN）对抗神经网络（GAN）

回归分析：回归分析 是一种研究自变量和因变量之间关系的预测模型，包括线性回归，逻辑回归

数据可视化：可视化可以作为机器学习的过程

关联分析：通过对数据集中某些属性同时出现的规律和模式属性间的关联、相关、因果等关系，包括Apriori 算法，FP-Growth算法是

分布式机器学习：分布式机器学习（DML）是一种利用多个计算机节点协同工作，核心思想是将数据和计算任务分发到多个节点上；

Apache Spark MLlib ：基于内存的 DML 框架，提供了传统机器学习算法的分布式实现。

 GraphLab 和 Apache Spark GraphX ：图并行计算平台，提供了可扩展的机器学习工具包。

 DMTK ：微软发布的 DML 工具包，支持数据并行化的统一接口等。

（五）机器学习常见问题：1：数据质量问题与预处理：数据量较少数据量较多，维度灾难，数据不完整，异常数据，重复数据，数据不一致；

2：数据不完整：数据种类要多，空白值空值无效值等，通过回归或贝叶斯定理等预测缺失值，删除含有缺失值的数据；

3：异常数据：分为错误的数据和小概率事件

4：数据分析常见陷阱：错误理解相关关系，错误的比较对象，数据抽样，忽略或关注极值，相信巧合数据，数据未做归一化,忽视第三方数据，过度关心统计指标

5：机器学习的选择方法：监督式学习或者无监督室学习，学习各类机器学习方法的特性，反复调整参数。

二：机器学习中的统计学习理论

（一）统计分析的基本概念：（1）统计学习的定义：1：统计学习基于数据分布；

2：样本规模影响模型精度；3：偏差与方差权衡重要；4：正则化避免过拟合；

（2）1：监督学习需要标签数据

2：无监督学习探索结构

3：半监督学习结合二者

4：强化学习试错试优

（3）：生成模型和判别模型：生成模型如朴素贝叶斯，隐马尔可夫模型，能揭示数据间的内在关系，决策边界；判别模型如支持向量机，逻辑回归，最优决策边界，对分类问题高效且准确，生成模型适用于数据生成，异常检测等场景，而判别模型适用于数据特性和任务需求

（二）：统计学习方法三要素

（1）模型：数据决定模型上限，算法优化模型性能

（2）策略：1：策略选择影响模型性能；2：数据分布影响策略有效性；3：特征选择优化策略表现

（3）算法：1：统计学习算法的重要性；2:数据量与算法性能；3：算法复杂性与过拟化；4：非参数方法与泛华能力

（:三）模型假设与验证

（1）模型的假设条件：1：模型假设的重要性；2：数据分布影响假设；3：交叉验证验证假设

（2）交叉验证的原理：1：交叉验证防止过拟化，数据集划分为验证集和训练集；2：交叉验证评估模型性能，多次交叉验证及计算平均性能指标，为模型选择和调参

（3）交叉验证适用于多种原理

（四）模型评估与选择

（1）经验误差与过拟化 1：交叉验证避免过拟化

2：准确性与泛化性平衡；3：ROC曲线全面评估

（2）误差分析 1:偏差与方差平衡；2：过拟和和欠拟合；3：使用验证集调参

（3）模型选择准则

1：偏差-方差权衡；2：交叉验证防止过拟和；3：奥卡姆提刀原则

（五）生成模型

生成模型与数据分布；生成模型与分类器比较；生成模型在深度还原中的应用；生成模型的评估标准

生成模型：贝叶斯估计

（1）：贝叶斯估计依赖先验知识；2：具有可解释性；3：能够处理小样本；4：贝叶斯估计的迭代性

（2）生成模型：EM算法

1：EM算法原理概括；2：EM算法应用广泛；3：EM算法收敛性保障

（六）判别模型

（1）极大似然估计

1：在分类中更高效；2：对特征选择敏感

（2）条件概率分布 1：影响分类器性能；2：揭示数据关联

Logistic回归与最大熵模型

分类决策；最大熵原理与信息最大化；特征选择与模型性能；正则化与模型泛化

（七）统计学习在实际中的应用

1：推荐系统精确化；2：信贷风险评估；3：医疗图像诊断；4：股票趋势预测

数据分析案例：特征选择优化性能；模型复杂度与泛化能力；正则化防止过拟化交叉验证评估模型

关注

10
点赞
踩
19

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

DYKdyk511 CSDN认证博客专家 CSDN认证企业博客

码龄31天

2: 原创

117万+: 周排名

16万+: 总排名

1193: 访问

: 等级

53: 积分

13: 粉丝

33: 获赞

0: 评论

35: 收藏

私信

关注

热门文章

最新评论

机器学习概论
CSDN-Ada助手: 推荐 Python入门技能树：https://edu.csdn.net/skill/python?utm_source=AI_act_python

最新文章

第二章机器学习基本方法

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。