目录
机器学习书籍下载链接:https://download.csdn.net/download/qq_18867155/11014439
-
什么是机器学习
机器学习(Machine Learning, ML)是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。
它是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域,它主要使用归纳、综合而不是演绎。世界上有上百种不同的机器学习算法
-
算法类别
-
分类与聚类
-
分类 (Classification)
给定一堆样本数据,以及这些数据所属的类别标签,通过算法来预测新数据的类别。- 常见的分类算法
k-最近邻法(k-nearest neighbor, kNN),决策树分类法,朴素贝叶斯分类算法(native Bayesian classifier),支持向量机(SVM)的分类法,神经网络法,模糊分类法等等。
- 常见的分类算法
-
聚类 (Clustering)
事先并不知道一堆数据可以被划分到那些类,通过算法来发现数据之间的相似性,从而将相似的数据划分到相应的类,简单的说就是把相似的东西分到一组。- 常见的聚类算法
k-均值(K-means clustering)聚类算法,K-MEDOIDS算法,CLARANS算法,BIRCH算法,CURE算法,CHAMELEON算法,基于密度的方法,DBSCAN算法,OPTICS算法,DENCLUE算法,基于网格的方法,STING算法,CLIQUE算法,WAVE-CLUSTER算法等等。
- 常见的聚类算法
机器学习算法只分为分类或聚类两种算法
-
-
监督学习与无监督学习
从有无先验知识的角度又可以分为监督学习和无监督学习
-
有监督学习(Supervised learning)
训练数据由一组训练实例组成。在监督学习中,每一个例子都是一对由一个输入对象(通常是一个向量)和一个期望的输出值(也被称为监督信号)。有监督学习算法分析训练数据,并产生一个推断的功能,它可以用于映射新的例子。一个最佳的方案将允许该算法正确地在标签不可见的情况下确定类标签。
用已知某种或某些特性的样本作为训练集,以建立一个数学模型(如模式识别中的判别模型,人工神经网络法中的权重模型等),再用已建立的模型来预测未知样本,此种方法称为有监督学习。是最常见的机器学习方法。 -
无监督学习(Unsupervised Learning)
现实生活中常常会有这样的问题:缺乏足够的先验知识,因此难以人工标注类别或进行人工类别标注的成本太高。很自然地,我们希望计算机能代我们完成这些工作,或至少提供一些帮助。根据类别未知(没有被标记)的训练样本解决模式识别中的各种问题,称之为无监督学习。 -
半监督学习-SSL(Semi-supervised Learning)
半监督学习是模式识别和机器学习领域研究的重点问题,是监督学习与无监督学习相结合的一种学习方法。半监督学习使用大量的未标记数据,以及同时使用标记数据,来进行模式识别工作。当使用半监督学习时,将会要求尽量少的人员来从事工作,同时,又能够带来比较高的准确性,因此,半监督学习目前正越来越受到人们的重视。
-
-
-
偏差(Bias)
偏差指预测输出与真实标记的差别,记为:
b i a s 2 ( X ) = ( f ‾ ( X ) − y ) 2 , 式 中 , f ‾ ( X ) 为 模 型 预 测 输 出 的 期 望 , y 为 X 的 真 实 值 ( 标 记 ) 。 bias^2(X)=(\overline f(X)-y)^2,式中,\overline f(X)为模型预测输出的期望,y为X的真实值(标记)。 bias2(X)=(f