机器学习(一)入门基本

   2018年4月5日开始学习机器学习,我采用的是周志华的“机器学习”作为初学者的指路书。

   机器学习所研究的主要内容是关于在计算机上从数据中产生“模型”的算法,即“学习算法”有了学习算法  ,我们把经验数据传给它,它就能基于这些数据产生模型,在面对新的情况时,模型会给我们提供相应的判断。机器学习的目标是使学得的模型能更好的适用于“新样本”。

在这章主要介绍一些基本术语,假设空间,归纳偏好以及机器学习的发展历程应用现状等,在这里我做一个总结以便以后查看。

一、基本术语

数据集:一组记录的集合。

示例:一组记录中每条记录是关于一个事件或对象的描述称为示例或样本或特征向量。

属性:反映事件或对象在某反面的表现或性质的事项,例如色泽

属性值:属性上的取值。

属性空间:属性张成的空间,亦成为样本空间或输入空间

学习或训练:从数据中学得模型的过程。(训练数据、训练样本、训练集)

假设:学得模型对应了关于数据的某种潜在的规律称为假设,这种潜在规律的自身称为真相或真实。

标记:示例结果的信息。(标记空间/输出空间)

样例:拥有标记信息的示例。

分类:所预测的是离散值,此类学习任务称为分类,若是连续值则称为回归。只涉及两个类别的“二分类”任务,称其中一个类为“正类”,另一个称反类。(多分类)

聚类:将训练集中的样本分为若干组,每组称为一个簇,这些自动形成的簇可能对应一些潜在的概念划分。

根据训练数据是否有标记信息,将学习任务划分为两大类:“监督学习”,“无监督学习”。

泛化:学得模型适用于新样本的能力。

二、假设空间

1.归纳与演绎是科学推理的两大基本手段。

归纳:从特殊到一般的“泛化”,即从具体的事实归结出一般性规律。“从样例中学习”显然是一个归纳的过程,亦称“归纳学习”。

演绎:从一般到特殊的“特化”过程,即从基础原理推演出具体状况。在数学公理系统中,基于一组公理和推理规则推导出于之相洽的定理,这是演绎。

2.归纳学习有狭义和广义之分。

广义的归纳学习大体相当与从样例中学习,狭义的归纳学习则要求从训练数据中学得概念,亦称为“概念学习”或“概念形成”。(最基本的是布尔概念学习)

我们可以把学习过程看做一个在所有假设组成的空间中进行搜索的过程,搜索目标是找到与训练集“匹配”的假设。假设的表示一旦确定,假设空间及规模大小就确定了。

版本空间;多个假设与训练集一致,即存在着一个与训练集一致的“假设集合”。

三、归纳偏好

归纳偏好:机器学习算法在学习的工程中对某种类型假设的偏好。

     任何一个有效的机器学习算法必有其归纳偏好,否则它将被假设空间中看似在训练集上“等效的”假设迷惑,而无法产生确定的学习结果。“奥卡姆剃刀”是一种常见的,自然科学研究中最基本的原则来引导算法确立“正确性”偏好的。内容是“若有多个假设与观察一致,则选最简单的那个”。然而,“奥卡姆剃刀”并非唯一可行的原则,其本身存在不同的诠释,使用奥卡姆剃刀原则并不简单,需要借助其他机制才能解决。

     对于一个学习算法A,若它在某些问题上比学习算法B好,则必然存在另一些问题,在哪里B比A好。这个结论对任何算法均成立,也就是说,无论学习算法A多聪明,学习算法B多笨拙,他们的期望性能竟然相同,这就是“没有免费的午餐”定理,简称NFL。(简短的证明:P8)NFL定理在简短的论述过程中假设真实目标函数是均匀分布的,而实际情况并非如此,所以,NFL定理让我们清楚的认识到,脱离具体问题,空泛的谈“什么学习算法更好”毫无意义。在某些问题上表现好的学习算法,在另一些问题上却可能不尽人如意,学习算法自身的归纳偏好与问题是否匹配,往往会起到决定性的作用。

四、发展历程

机器学习是人工智能研究发展到一定阶级的必然产物。

     二十世纪五十年代到七十年代,人工智能“推理期”(跳棋程序、基于神经网络的“连接主义”、“符号主义”)————二十世纪七十年代中期开始,进入“知识期”————二十世纪八十年代,“从样例中学习”的一大主流是符号主义学习————二十世纪九十年代中期之前,“从样例中学习”另一大主流技术是基于神经网络的连接主义学习————二十世纪九十年代中期,“统计学习”————二十一世纪初,连接主义学习卷土重来,“深度学习”(狭义的说就是“很多层”的神经网络)

五、应用现状

这部分主要介绍关于机器学习的一些机构,其实在进一步说明机器学习越来越重要,引起了很多国家的重视。这部分有两个很有趣的例子:自动汽车驾驶、2012年美国大选,奥巴马就是通过一支机器学习团队,使得拉票获取成功以及筹得创纪录的10亿美元竞选经费。有意思微笑

。。。。。。。。。。。

几个领域重要期刊

机器学习领域:Journal of Machine Learning Research、Machine Learning

人工智能领域:Artificial Intellingence、Journal of Artificial Intelligence Research

数据挖掘领域:ACM Transactions on Knowledge Discovery from Data、Data Mining and Knowledge Discovery

计算机视觉与模式识别领域:IEEE Transactions on Pattern Analysis and Machine Intelligence

神经网络领域:Neural computation、IEEE Transactions on Neural Networks and Learning Systems 

统计学领域:Annals of Statistics





  • 1
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值