【机器学习】--- 机器学习的基本概念和介绍

机器学习的概述

  • 机器学习算法是一类从数据中自动分析获得规律,并利用规律对未知的数据进行预测的算法。

  • 机器学习是从统计学演变而来,所以也叫统计学习。

  • 机器学习的三要素:模型 策略 算法

  • 模型:在进行数据分析时,对于数据总结出的规律就是模型;

  • 策略:对于模型的筛选就称为策略,是一个模型的选择和比较标准;损失函数;

  • 算法:对于复杂问题的解决就需要算法(不能通过简单的数学计算而获取答案);
    在这里插入图片描述

机器学习分类

机器学习主要可分为两大类:
  • 监督学习
  • 无监督学习
监督学习:每个样本都有相应的“正确答案”,在根据样本对未知的数据进行预测;可以分为两大问题;
  • 回归问题(一般用于处理连续的数据,对样本数据先进行拟合)
    在这里插入图片描述
  • 分类问题(0 1分类,对于多特征,可以采用支持向量机
    在这里插入图片描述
无监督学习:每个样本都明确的标签,然后让机器学习算法自动的为我们找出他们的内在结构;常见的有:
  • 聚类算法
    在这里插入图片描述在这里插入图片描述
模型选择

在这里插入图片描述
该图中,红色曲线表示模型训练曲线,蓝色曲线代表模型预测曲线;所以会出现欠拟合和过拟合现象;
泛化能力:指学习到的模型对未知数据的预测能力。

  • 欠拟合:是指模型的拟合程度不高,模型过于简单,数据距离拟合曲线较远,指模型没有很好的捕捉数据,对数据的拟合程度较低,泛化能力较弱;
  • 过拟合 :是指学习时选择的模型所包含的参数较多,导致对样本数据预测的很好,而对未知数据的预测较差,模型复杂度较高;
策略选择
  • 损失函数:度量模型的一次好坏;在这里插入图片描述
    在这里插入图片描述
模型选择
  • 正则化:正则化是在损失函数的基础上增加一个正则项,正则项是和损失函数成反相关,一般是模型函数复杂度的单调递增函数,模型越复杂,正则项一般越大;
  • 模型验证
    • 简单交叉验证:是随机项数据分为两部分,一部分数据作为训练集,另一部分作为测试集,在测试集上评价各个模型的测试误差,选出测试误差最小的模型;
    • S折交叉验证:是随机的将已给的数据切分成S个互不相交大小相同的子集,然后利用S-1个子集的数据训练模型,利用剩下的一个作为测试集,然后交叉进行S次,最后选出S次评测中误差最小的模型。
  • 1
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值