到底什么是“机器学习”?机器学习有哪些基本概念?(简单易懂)

由现实世界引出“机器学习”

看到乌云密布,自己推测出要下雨


通过一个苹果的表面和大小,来判断这个苹果是否好吃


我们通过经验来进行判断,这是因为我们积累了许多有用的经验,通过对有用经验的分析,就能对遇到的情况做出相应的对策。


计算机中,经验就是“数据”判断模型就是“算法”机器学习就是研究“学习算法”


举例:当计算机数据库有上千万只猫的照片,并对其特点进行建模分析,你给机器一张照片,它就能进行判断这张照片的动物是不是猫。(有人问:会不会出错?肯定会出错啊!模型如果100%就不会出错,这是依赖于“算法”的好坏和数据库的大小。我们人类的经验也有时候会出错,这其实就是概率的问题)

基本概念:从具体到抽象

要进行机器学习,首先要准备数据。还是以猫为例:


{猫颜色:黑的、白的、黄的...}、{猫眼睛:颜色一样的,颜色不一样} 、{猫有的有铃铛,有的没有铃铛}   这些都是“特征”、“属性”,每一只猫的属性有很多种,我们可以用一只黑色+眼睛颜色一样+没有铃铛的猫来进行描述。


比如现在有100只猫的照片,那么这个就称为“样本空间”


这100只猫的属性集合,分开形成各自的集合,比如上面3个集合,那就称为“属性空间


抽象:D={x1,x2,x3.....xm}表示有m个示例的数据集。(100只猫的照片形成的数据集)


每个x都有d个属性描述(每只猫可以由:颜色+眼睛色彩+铃铛等属性区分),d是维数


x是样本空间的一个向量


从数据中学习得的模型称为“学习”或者“训练”

每一个样本(每一张猫的照片)称为一个“训练样本”,训练样本的集合为“训练集


潜在的规律称为“假设”,也称为“真相”、“真实”,学习过程就是不断找到真相。


仅仅有前面示例的猫的照片也不够,需要建立联系,就是告诉计算机这是不是猫,(白色,双眼一样,有铃铛;这只是猫)注意分号!这是一个“标记”,拥有了标记,这就成为了一个“样例”这样的集合成为“标记空间”“输出空间”


给你一张照片,判断是不是猫,这个叫做“分类”,预测是连续值,称为“回归


只涉及两个类别的分类成为“二分类”问题: “正类”+“反类”;多个分类成为:“多分类”


预测的过程称为:“测试”;测试的东西称为:“测试样本


同时可以对其进行聚类分析:比如把猫分为:橘猫,波斯猫....聚类分析有利于进一步学习,找到潜在规律,这些规律我们事先并不知道。


根据训练数据是否有标记:“监督学习”+“无监督学习
监督学习代表:分类和回归;无监督学习代表:聚类

训练的目的是解决未知情况,对于“新样本”的认识能力,也就是“泛化”能力


假设样本空间服从一个未知分布,每个样本都是独立的,“独立同分布”,一般而言,训练样本越多,这个未知分布越明确,越实用,泛化能力也越强!

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值