机器学习笔记

机器学习

  机器学习是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。

机器学习的算法与流程

机器学习的算法:

1.分类算法

分类就是通过分析训练集中的数据,为每个类别做出准确的描述或建立分析模型或挖掘出分类规则,然后用这个分类规则对其它数据对象 进行分类。决策树、支持向量机、神经网络、朴素贝叶斯、Bayes网络、k-最近邻等是几种常用的分类方法。

神经网络:传统的神经网络为BP神经网络,基本网络结构为输入层、隐藏层和输出层,节点代表神经元,边代表权重值,对输入值按照权重和偏置计算后将结果传给下一层,通过不断的训练修正权5重和偏置。递归神经网络(RNN)、卷积神经网络(CNN)都在神经网络在深度学习上的变种。

2.聚类算法

聚类分析是把一个给定的数据对象(样本)集合分成不同的簇(组)聚类就是把整个数据分成不同的组,并使组与组之间的差距尽可大,组内数据的差异尽可能小。

K-means是一种常用的聚类算法,用户指定聚 类的类别数K,随机地选择K个对象作为K个初始聚类中心。对剩余的每个对象,分别计算与初始聚类中心的距离,根据距离划到不同的簇。然后重新计算每个簇的平均值,求出新的聚类中心,再重新聚类。这个过程不断重复,直到收敛(相邻两次计算的聚类中心 相同)。
3.关联分析
关联分析通过对数据集中某些属性同时出现的规律和模式 来发现其中的属性间的关联、相关
、因果等关系,典型应用是购物篮分析。
4.回归分析
回归分析是分析一个变量与其他一个(或几个)变量之间的相关关系的统计方法。
5.深度学习
深度学习是通过构建多个隐藏层和大量数据来学习特征,从而提升分类或预测的准确性。
机器学习的流程:

机器学习的流程包括明确目标、收集数据、数据预处理、数据建模、模型训练、模型评估、模型应用等步骤。

统计分析

统计学习定义:基于数据分布、样本规模影响模型精度、偏差与方差权衡重要、正则化避免过拟合

监督学习需标签数据: 监督学习依赖于带有已知标签的数据集进行模型训练,通过比较预测值与真实值调 整模型参数。

无监督学习探索结构 :无监督学习无需标签数据,通过聚类、降维等技术探索数据内在结构和隐藏模式。

半监督学习结合二者: 半监督学习利用有限的标签数据和大量无标签数据共同训练模型,提高学习效率和 泛化能力。

强化学习试错优化: 强化学习通过与环境的交互和试错,不断调整策略以获得最大化累积回报,适用于 序列决策问题。

统计学习的三要素:

模型:算法优化模型性能、数据决定模型上限

策略:策略选择影响模型性能、数据分布影响策略有效性、特征选择优化策略表现

算法:统计学习算法的重要性、 算法复杂性与过拟合、数据量与算法性能、非参数方法与泛化能力

模型假设与验证
1.模型假设的重要性
在机器学习中,模型假设是预测准确性的基石。例如,线性回归假设变量间存在线性关系,
通过数据验证假设,可确保模型的有效应用。
2.数据分布影响假设
模型假设需符合实际数据分布,如支持向量机假设数据在高维空间可分,数据分布的多样
性直接影响假设的合理性。
3.交叉验证验证假设
通过交叉验证技术,如K折交叉验证,可以评估模型假设在不同数据集上的泛化能力,确
保模型假设的稳健性。
交叉验证的原理:
交叉验证防过拟合
交叉验证通过将数据集划分为训练 集和验证集,有效防止了模型在训 练集上过拟合,提高了模型在未知 数据上的泛化能力。

交叉验证评估模型性能

通过多次交叉验证并计算平均性能指标,能够准确评估机器学习模型的性能,为模型选择和调参提供依据。

模型评估与选择

经验误差与过拟合:1.交叉验证避免过拟合 2.准确性与泛化性平衡 3.ROC曲线全面评估

误差分析:偏差与方差平衡、过拟合与欠拟合 、使用验证集调参

模型选择:

1.模型选择时需权衡偏差与方差,简单模型易产生高偏差但低方差,复杂模型则相反, 需通过数据性能评估确定最优模型。

2. 通过交叉验证将数据集分割成训练集和测试集,评估模型在未见数据上的性能,减少
过拟合,选择更泛化的模型。

 

3. 在模型选择时,若无足够数据或理论支持复杂模型更优,则选择最简单的模型,即

无论是小规模数据集还是大规模数据集,交叉验证都能有效应用,特别在数据集较小时,通过交叉验证可充分利用数据,提高模型精度。

生成模型:通过学习数据的联合概率分布来生成新数据,能揭示数据间的内在关系、决策边界。

判别模型:直接学习不同类别间的最优决策边界,对分类问题高效且准确。

  • 14
    点赞
  • 15
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值