机器学习--绪论(一)

1、介绍

       机器学习是一门怎样的学科呢?许多人会好奇,机器学习如何完成现实生活中的任务吧,我就介绍介绍我的理解,由于计算机的快速计算的能力,人们期望计算机能够完成一些简单而繁多的工作,这些工作对于人来说会很简单,但对于计算机确不是容易的事,而计算机的优势在于能够快速的完成大量的任务,比如判断一个水果是好的还是坏的,人只要拿在手上看一圈就可以判断出来,但要人判断成千上万的水果是好是坏,那就需要很多时间,但对于计算机,只会输入输出的机器,很难相信它能够做到,但若当计算机能够完成这项任务,则计算机就可以快速的完成大量的水果检测是好是坏,而机器学习正是这样一门学科,它是研究计算机如何模拟和实现人类的学习行为,它能够让计算机具备一些原本只有人类才拥有的能力。
       计算机通过输入获取前提信息,通过输出表示任务结果,拿评测水果来说,输入就是水果的照片,而输出即或好或坏,而如何通过输入得到输出呢,那就需要及其复杂的学习模型,可以将其假想为函数,对于任一自变量,都有唯一的函数值与其对应,就如同对于任一的输入,都有唯一的输出对应,而学习模型就如同我们熟悉的函数,回想一下,学习数学时,我们如何通过一些离散的点得到一个函数,首先的定义函数,然后通过带入点求解,一个参数的函需要一个点,含有n个参数的函数需要n个点,同样要想得到学习模型,也需要相应的学习算法T和对应的输入输出E,定好学习算法后代入输入输出就可以求解出学习模型,这个过程叫学习,程序对E进行了学习,也叫训练,通过数据E训练高性能的模型。

2、基本术语

  • 数据集:用来学习的数据的集合
  • 特征向量:对于数据集的每条记录,可以描述为各个属性,若每个属性作为一个坐标轴,该记录即对应多维空间中的一个坐标位置,这样的一个记录称为特征向量
  • 维数:即特征向量的维数
  • 学习和训练:从数据中学得模型的过程
  • 训练数据:训练过程中使用的数据集,每例包括“输入信息”和“结果信息”
  • 训练集:训练样本组成的集合
  • 假设:学得模型对应的关于数据的某种潜在规律
  • 真相和真实:这种潜在规律本身
  • 标记:训练样本的“结果信息”
  • 分类:预测离散值的一类学习任务
  • 回归:预测连续值的学习任务
  • 测试:学得模型后对样本进行测试的过程
  • 监督学习:训练数据拥有标记信息,代表有分类和回归
  • 无监督学习:训练的数据没有标记信息,代表有聚类
  • 预测任务:通过学习,建立一个从输入空间到输出空间的映射
  • 泛化能力:学得模型适用于新样本的能力

假设空间

       我们可以把学习的过程看作一个在所有假设组成的空间中进行搜索的过程,搜索的目标就是找到与训练集“匹配”的假设,即能够将训练集中的瓜判断正确的假设,假设的表示一旦确定,假设空间极其规模大小就确定了。可以有许多策略对假设空间进行搜索,搜索过程中可以不断删除与正例不一致的假设或与反例一致的假设,最终会得到与训练集一致的假设,这就是对训练集学习的结果,但现实中,经常是面临很大的假设空间,但学习过程是基于有限样本训练集进行的,因此会有很多假设与训练集一致,即存在一个与训练集一致的“假设集合”,称为版本空间。

归纳偏好

       对于一个具体的学习算法而言,它必须要产生一个模型,这时,学习算法本身的“偏好”就会起作用,接着上一节假设空间的问题,当有多个假设符合条件时,通过归纳偏好就可以产生确定的学习模型。归纳偏好根据具体的实际情况确定。
       “奥卡姆剃刀”是一种常用的、自然科学研究中最基本的准则,即“若有多个假设与观察一致,则选择最简单的那个”。

学习自周志华的《机器学习》,随着学习进度会进行更新。。。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值