机器学习笔记

最新推荐文章于 2024-09-11 10:01:43 发布

Z24107

最新推荐文章于 2024-09-11 10:01:43 发布

阅读量750

点赞数 14

文章标签：机器学习笔记人工智能

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/Z24107/article/details/142030650

版权

机器学习

机器学习是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。

机器学习的算法与流程

机器学习的算法：

1.分类算法

分类就是通过分析训练集中的数据，为每个类别做出准确的描述或建立分析模型或挖掘出分类规则，然后用这个分类规则对其它数据对象进行分类。决策树、支持向量机、神经网络、朴素贝叶斯、Bayes网络、k-最近邻等是几种常用的分类方法。

神经网络：传统的神经网络为BP神经网络，基本网络结构为输入层、隐藏层和输出层，节点代表神经元，边代表权重值，对输入值按照权重和偏置计算后将结果传给下一层，通过不断的训练修正权5重和偏置。递归神经网络（RNN）、卷积神经网络（CNN）都在神经网络在深度学习上的变种。

2.聚类算法

聚类分析是把一个给定的数据对象（样本）集合分成不同的簇（组）聚类就是把整个数据分成不同的组，并使组与组之间的差距尽可大，组内数据的差异尽可能小。

K-means是一种常用的聚类算法，用户指定聚类的类别数K，随机地选择K个对象作为K个初始聚类中心。对剩余的每个对象，分别计算与初始聚类中心的距离，根据距离划到不同的簇。然后重新计算每个簇的平均值，求出新的聚类中心，再重新聚类。这个过程不断重复，直到收敛（相邻两次计算的聚类中心相同）。

3.关联分析

关联分析通过对数据集中某些属性同时出现的规律和模式来发现其中的属性间的关联、相关

、因果等关系，典型应用是购物篮分析。

4.回归分析

回归分析是分析一个变量与其他一个（或几个）变量之间的相关关系的统计方法。

5.深度学习

深度学习是通过构建多个隐藏层和大量数据来学习特征，从而提升分类或预测的准确性。

机器学习的流程：

机器学习的流程包括明确目标、收集数据、数据预处理、数据建模、模型训练、模型评估、模型应用等步骤。

统计分析

统计学习定义：基于数据分布、样本规模影响模型精度、偏差与方差权衡重要、正则化避免过拟合

监督学习需标签数据：监督学习依赖于带有已知标签的数据集进行模型训练，通过比较预测值与真实值调整模型参数。

无监督学习探索结构：无监督学习无需标签数据，通过聚类、降维等技术探索数据内在结构和隐藏模式。

半监督学习结合二者：半监督学习利用有限的标签数据和大量无标签数据共同训练模型，提高学习效率和泛化能力。

强化学习试错优化：强化学习通过与环境的交互和试错，不断调整策略以获得最大化累积回报，适用于序列决策问题。

统计学习的三要素：

模型：算法优化模型性能、数据决定模型上限

策略：策略选择影响模型性能、数据分布影响策略有效性、特征选择优化策略表现

算法：统计学习算法的重要性、算法复杂性与过拟合、数据量与算法性能、非参数方法与泛化能力

模型假设与验证

1.模型假设的重要性

在机器学习中，模型假设是预测准确性的基石。例如，线性回归假设变量间存在线性关系，

通过数据验证假设，可确保模型的有效应用。

2.数据分布影响假设

模型假设需符合实际数据分布，如支持向量机假设数据在高维空间可分，数据分布的多样

性直接影响假设的合理性。

3.交叉验证验证假设

通过交叉验证技术，如K折交叉验证，可以评估模型假设在不同数据集上的泛化能力，确

保模型假设的稳健性。

交叉验证的原理：

交叉验证防过拟合

交叉验证通过将数据集划分为训练集和验证集，有效防止了模型在训练集上过拟合，提高了模型在未知数据上的泛化能力。

交叉验证评估模型性能

通过多次交叉验证并计算平均性能指标，能够准确评估机器学习模型的性能，为模型选择和调参提供依据。

模型评估与选择

经验误差与过拟合：1.交叉验证避免过拟合 2.准确性与泛化性平衡 3.ROC曲线全面评估

误差分析：偏差与方差平衡、过拟合与欠拟合、使用验证集调参

模型选择：

1.模型选择时需权衡偏差与方差，简单模型易产生高偏差但低方差，复杂模型则相反，需通过数据性能评估确定最优模型。

2. 通过交叉验证将数据集分割成训练集和测试集，评估模型在未见数据上的性能，减少
过拟合，选择更泛化的模型。

3. 在模型选择时，若无足够数据或理论支持复杂模型更优，则选择最简单的模型，即

无论是小规模数据集还是大规模数据集，交叉验证都能有效应用，特别在数据集较小时，通过交叉验证可充分利用数据，提高模型精度。

生成模型：通过学习数据的联合概率分布来生成新数据，能揭示数据间的内在关系、决策边界。

判别模型：直接学习不同类别间的最优决策边界，对分类问题高效且准确。

关注

14
点赞
踩
15

收藏

觉得还不错? 一键收藏
0
评论
机器学习笔记

基于数据分布、样本规模影响模型精度、偏差与方差权衡重要、正则化避免过拟合监督学习需标签数据：监督学习依赖于带有已知标签的数据集进行模型训练，通过比较预测值与真实值调整模型参数。无监督学习探索结构：无监督学习无需标签数据，通过聚类、降维等技术探索数据内在结构和隐藏模式。半监督学习结合二者：半监督学习利用有限的标签数据和大量无标签数据共同训练模型，提高学习效率和泛化能力。强化学习试错优化：强化学习通过与环境的交互和试错，不断调整策略以获得最大化累积回报，适用于序列决策问题。
复制链接

扫一扫

Z24107 CSDN认证博客专家 CSDN认证企业博客

码龄5天

1: 原创

173万+: 周排名

22万+: 总排名

751: 访问

: 等级

24: 积分

13: 粉丝

14: 获赞

0: 评论

15: 收藏

私信

关注

热门文章

机器学习笔记 750

最新评论

机器学习笔记
CSDN-Ada助手: 恭喜你这篇博客进入【CSDN每天最佳新人】榜单，全部的排名请看 https://bbs.csdn.net/topics/619302080。

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。