什么是机器学习

广州的天气总是阴晴不定,经常上午阳光灿烂,下午突然乌云密布,狂风乱作,然后就是倾盆大雨。每次看见乌云和大风,人们就知道要下大雨了。为什么我们看见乌云感受到大风,就知道要下雨了呢?我们能做出这些有效的预判,是因为我们已经积累了许多经验,而通过对经验的利用,就能对新情况做出有效预测。那么,这样利用经验做出判断的工作,计算机能够实现吗?
机器学习正是这样一门学科,计算机中,经验通常以数据的形式存在,机器学习所研究的内容,是关于在计算机上从数据中产生模型的算法,也就是学习算法(名词)。我们把经验数据提供给学习算法,它就能根据这些数据产生模型,在面对新的情况时,模型会给我们提供相应的判断。
基本术语(以判断天气情况为例):
数据集:一组记录合集,一个记录为一个样本。
样本:数据集中的一条记录。是对一个事件或对象的描述。如:(刮风 = 是; 温度 = 25; 湿度 = 99)
属性或特征:反映事件或对象在某方面的表现或性质。如:刮风、温度、湿度。
属性值:属性的取值。
样本空间:如果我们把上述三个属性作为三个坐标轴,则他们形成一个用于描述天气的三维空间,每一个天气描述都可以在这个空间中找到自己的坐标。
特征向量:在样本空间中的每一个点对应一个坐标向量,因此一个样本也叫做特征向量。上述例子的样本维度是3(3个属性),因此是一个三维向量。
训练集:作为经验提供给学习算法的数据集。
训练样本:训练集中的记录,包含结果信息。如:((刮风 = 是; 温度 = 25; 湿度 = 99),雨天)
测试集:新的需要判断类别的数据集,用于测试产生的模型是否准确。
测试样本:用于被预测结果的样本。
机器学习有两类:分类回归。分类的结果是离散值,例如天气情况:晴天、雨天、多云。离散的预测结果是连续值,例如下雨的概率:0.95、0.88、0.24 。
根据训练数据集是否有标记信息,学习任务分为监督学习和无监督学习。分类和回归都属于监督学习,根据已有的例子(知道什么情况是雨天什么情况是晴天),来对新的样本做出判断。无监督学习的代表是聚类,所谓聚类是指:并不知道训练集的具体类别结果信息,但是可以根据样本在样本空间中的坐标位置,把他们分成几个组(通常是根据距离划分),这些自动形成的组对应一些潜在概念的划分。也就是说,分出来的组你可能并不知道它究竟是什么类别,但是这些样本具有某些共同特征。
影响预测准确度的因素有:是否采用了正确的学习算法,训练集样本选择是否合理,用于预测的属性特征是否合理。一般来说,训练样本集要符合现实情况的规律,即和测试样本集最好同分布。
最后,推荐一下一本不错的机器学习书籍,南大周志华写的《机器学习》,很适合入门学习。自己目前也是刚刚开始学习机器学习~用的就是这本教材。吴恩达以前在Standford的机器学习公开课也很不错~

以上 欢迎指正错误 共同学习

  • 2
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值