2016年机器学习简要笔记

Arthur Samuel.Machine Learning


overfittingt是这样一种现象:一个假设在训练数据上能够获得比其他假设更好的拟合,但是在训练数据外的数据集上却不能很好的拟合数据。此时我们就叫这个假设出现了overfitting的现象。出现这种现象的主要原因是训练数据中存在噪音或者训练数据太少。而解决overfit的方法主要有两种:提前停止树的增长或者对已经生成的树按照一定的规则进行后剪枝。


人工神经网络是由大量处理单元互联组成的非线性、自适应信息处理系统。它是在现代神经科学研究成果的基础上提出的,试图通过模拟大脑神经网络处理、记忆信息的方式进行信息处理。人工神经网络具有四个基本特征:
(1)非线性 非线性关系是自然界的普遍特性。大脑的智慧就是一种非线性现象。人工神经元处于激活或抑制二种不同的状态,这种行为在数学上表现为一种非线性
人工神经网络
人工神经网络
关系。具有阈值的神经元构成的网络具有更好的性能,可以提高容错性和存储容量。
(2)非局限性 一个神经网络通常由多个神经元广泛连接而成。一个系统的整体行为不仅取决于单个神经元的特征,而且可能主要由单元之间的相互作用、相互连接所决定。通过单元之间的大量连接模拟大脑的非局限性。联想记忆是非局限性的典型例子。
(3)非常定性 人工神经网络具有自适应、自组织、自学习能力。神经网络不但处理的信息可以有各种变化,而且在处理信息的同时,非线性动力系统本身也在不断变化。经常采用迭代过程描写动力系统的演化过程。
(4)非凸性 一个系统的演化方向,在一定条件下将取决于某个特定的状态函数。例如能量函数,它的极值相应于系统比较稳定的状态。非凸性是指这种函数有多个极值,故系统具有多个较稳定的平衡态,这将导致系统演化的多样性。
人工神经网络中,神经元处理单元可表示不同的对象,例如特征、字母、概念,或者一些有意义的抽象模式。网络中处理单元的类型分为三类:输入单元、输出单元和隐单元。输入单元接受外部世界的信号与数据;输出单元实现系统处理结果的输出;隐单元是处在输入和输出单元之间,不能
人工神经网络
人工神经网络
由系统外部观察的单元。神经元间的连接权值反映了单元间的连接强度,信息的表示和处理体现在网络处理单元的连接关系中。人工神经网络是一种非程序化、适应性、大脑风格的信息处理 ,其本质是通过网络的变换和动力学行为得到一种并行分布式的信息处理功能,并在不同程度和层次上模仿人脑神经系统的信息处理功能。它是涉及神经科学、思维科学、人工智能、计算机科学等多个领域的交叉学科。
人工神经网络是并行分布式系统,采用了与传统人工智能和信息处理技术完全不同的机理,克服了传统的基于逻辑符号的人工智能在处理直觉、非结构化信息方面的缺陷,具有自适应、自组织和实时学习的特点。


database mining  :web click data,medical records,biology,engineering
Applications can't program by hand:
autonomous helicopter,handwriting recognition,NLP,computer vision


健壮性是指程序在运行过程中出现一般性的错误,程序会自动进行错误处理函数。
可靠性是指程序在运行过程中出现错误的概率,一般会做一些可靠性试验来测试MTBF。


 在FIND-S算法中,对以属性约束的合取式描述的假设空间H,FIND-S一定会输出H中与所有正例相一致的最特殊的假设。只要正确的目标概念包含在H中,并且训练数据都是正确的,最终的假设也与所有反例一致。


在候选消除法中,一定会输出与训练样例一致的假设, 而且输出的是所有假设的集合。在候选消除法中,变型空间被表示成它的极大一般和极大特殊的成员,这些成员形成了一般和特殊边界的集合,这些边界在整个偏序结构中计算出变型空间,这个变型空间包含着假设空间H中与训练样例相一致的所有假设。 


错误数据(噪声)


机器学习试图去建造一个可以学习的算法,用来预测某个目标的结果。要达到此目的,要给于学习算法一些训练样本,样本说明输入与输出之间的预期关系。然后假设学习器在预测中逼近正确的结果,其中包括在训练中未出现的样本。既然未知状况可以是任意的结果,若没有其它额外的假设,这任务就无法解决。这种关于目标函数的必要假设就称为归纳偏置(Mitchell, 1980; desJardins and Gordon, 1995)。


简单的讲,归纳偏置就是一个附加的前提集合B,以后还会提到,这个前提集合B有两种情况,第一种是对假设空间进行限定,就像候选消除算法那样;第二种是假设空间是完整的假设空间,但是进行不彻底的搜索,很多贪心算法都是这样的,如以后会提到的决策树算法。前一种归纳偏置叫做限定偏置,后一种叫做优选偏置。


经典的Google利用大数据预测了H1N1在美国某小镇的爆发。
百度预测2014年世界杯,从淘汰赛到决赛全部预测正确。


幂集
集合A的幂集就是所有A的子集所组成的集合。比如集合{1,2,3},它的幂集B就是{{1},{2},{3},{1,2},{2,3},{1,3},{空集}}


Tic-Tac-Toe
n.
1. 三连棋游戏(两人轮流在一有九格方盘上划加字或圆圈, 谁先把三个同一记号排成横线、直线、斜线, 即是胜者)
2. 一种儿童游戏(参与者闭双目, 用铅笔点指在板上的任一组数字, 累计得分多者为胜)


随机森林(Random Forest)
GBDT


Deep Learning是全部深度学习算法的总称,CNN是深度学习算法在图像处理领域的一个应用。
第一点,在学习Deep learning和CNN之前,总以为它们是很了不得的知识,总以为它们能解决很多问题,学习了之后,才知道它们不过与其他机器学习算法如svm等相似,仍然可以把它当做一个分类器,仍然可以像使用一个黑盒子那样使用它。


第二点,Deep Learning强大的地方就是可以利用网络中间某一层的输出当做是数据的另一种表达,从而可以将其认为是经过网络学习到的特征。基于该特征,可以进行进一步的相似度比较等。


第三点,Deep Learning算法能够有效的关键其实是大规模的数据,这一点原因在于每个DL都有众多的参数,少量数据无法将参数训练充分。


卡方测试:卡方选择来说,计算的是特征与类别之间的联系程度,计算出来的卡方值越大,说明特征对当前类别的区分度越大;而特征对类别的区分度越大,我们直观上也就越应该选择这个特征。


启发式规则就是基于启发式的规则,重点在于特征值识别技术上的更新、解决单一特征码比对的缺陷。目的不在于检测所有的未知病毒,只是对特征值扫描技术的补充。


http://wenku.baidu.com/link?url=ElGwPGkI5WVlLJFYCy6Mu_Pjuc8Yuctz9OWA1KmRrI9j-lUX7QBDtVU792nNxd7Yhu8JgzXA-SDWSM7rNjq72Zs2xPbmdqXqrQjIcqJImOy
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

农民小飞侠

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值