监督学习初步---线性分类器

原创 2016年05月30日 13:41:15

1. Introduction


监督学习(supervised learning):粗糙的说就是需要利用输入值来预测输出.

变量解释:

X:输入变量
Y:定量输出
G:定性输出,GG
xi:X的第i个观测值
X:矩阵

Example 1. Handwritten Digit Recognition

目标为预测给定图中的数字,其中G={0,1,2,...,9}.

部分样本如下图:
example1


2. Linear models and OLS


2.1 模型简介


输入向量XT=(X1,...Xp),预测输出

Y^=β^0+j=1pXjβ^j=XTβ

利用最小二乘(OLS)估计β^

β^=argminRSS(β)=argmini=1nxiβ^=(XTX)1XTy


2.2 统计理论分析


假设输入输出的联合分布函数为P(X,Y),回归函数为f(x)
期望均方预测误差

EPE(f)=E(Yf(X))2

从而
f(x)=argminEPE(f)=E(Y|X=x)

根据中心极限定理f^fa.s..

也就是说当f(x)=xTβ时,有

β=argminEPE(β)==[E(XTX)]1E[XTY]

β^β.


3. Linear Regression of an Indicator Matrix


Indicator Matrix:矩阵的元素只有0和1,且每一行只有一个1,其它均为0.

考虑模型输出为定性输出,GG={1,2,...,K}

定义示性函数Yk,k=1,2,...,K

Yk={10G=kelse

定义向量
Y=(Y1,...,YK)

只有一个元素为1,其它均为0,进行N次观测,可以定义N×K维观测矩阵Y为Indicator Matrix.
B^=(XTX)1XTY

给定一个新的输入x,分类方法如下:

  • 计算拟合值f^(x)=[(1,x)B^]T,K

  • 计算G^(x)=argmaxkGf^k(x)

NOTE:因为fk(x)=E(Yk|X=x),Yk为示性函数,示性函数的期望值为概率值,即

fk(x)=E(Yk|X=x)=P(Yk=1|X=x)=P(G=k|X=x)

从而
kGfk(x)=1


Example 2:使用R-MASS包中的Iris数据,有4个自变量Sepal.L.,Sepal.W.,Petal.L.,与Petal.W,因变量取值SpG={s,c,v}.

部分数据
Iris

变量之间的关系
relation

通过图片的最后一行或者最后一列可以看到,可以使用线性分类器对Sp进行预测.
将Sp转化为示性函数矩阵后计算

B^=(XTX)1XTY

B^为4*3的矩阵,以图中数据第一行作为新的输入计算拟合值为

f^=(0.9814216,0.1579605,0.118288)
从而判断为s类,与真实分类相符.
R语言代码

rm(list=ls())
library(MASS)
Iris <- data.frame(rbind(iris3[,,1], iris3[,,2], iris3[,,3]),
                   Sp = rep(c("s","c","v"), rep(50,3)))
X=as.matrix(Iris[,1:4])
G<-gl(3,50)
Y=matrix(0,nrow=150,ncol=3)
for(i in 1:150)
 Y[i,G[i]]=1
BETA<-solve(crossprod(X,X))%*%crossprod(X,Y)
F<-X%*%BETA
for(i in 1:150)
F[i,F[i,]<max(F[i,])]=0
for(i in 1:150)
F[i,F[i,]==max(F[i,])]=1

sum(F[,1])
##[1] 51
sum(F[,2])
##[1] 45
sum(F[,3])
##[1] 54

ref 1 :J.F. et.al. The elements of statistical learning.2008.

版权声明:本文为博主原创文章,未经博主允许不得转载。

(一)监督学习模型之线性分类器

一、解决问题使用线性分类模型从事良/恶性肿瘤的预测任务二、数据地址http://archive.ics.uci.edu/ml/machine-learning-databases/breast-can...
  • qq_21046135
  • qq_21046135
  • 2017年09月20日 17:20
  • 129

模式识别(Pattern Recognition)学习笔记(十三)--多类线性分类器

模式识别(Pattern Recognition)学习笔记(十三)--多类线性分类器 如有错误还望海涵,谢谢。 引言        在之前的学习和讨论中,均是围绕的两类问题来展开,但这毕竟不结合...
  • eternity1118_
  • eternity1118_
  • 2016年05月25日 12:12
  • 2190

(笔记)初步了解监督学习

今天开始初步的涉猎统计学习方法,以该系列博客作为自己学习的成果吧 简介统计学习(statistical learning)是关于计算机基于数据构建概率统计模型并运用模型对数据进行预测和分析的学科...
  • u011675745
  • u011675745
  • 2017年08月06日 19:31
  • 100

线性分类器:Logistic Regression

本内容整理自coursera.欢迎交流转载。 1 回顾  在这篇博客里我描述过直线、平面和超平面的分类。2 逻辑回归  什么是logistic regression?   假设我们有N个独立向量,每...
  • u014303046
  • u014303046
  • 2016年11月29日 19:18
  • 475

斯坦福CS231n 课程学习笔记--线性分类器(笔记篇)

最近学习了斯坦福的CS231n(winter 2016)系列课程,收获很大,作为深度学习以及卷积神经网络学习的入门很是完美。学习过程中,主要参考了知乎上几位同学的课程翻译,做得很好,在这里也对他们表示...
  • liuchonge
  • liuchonge
  • 2016年09月23日 20:04
  • 2132

【机器学习】SVM学习(三):线性分类器的求解

转载:http://blog.csdn.net/qll125596718/article/details/6904289 1.问题的描述          上节说到我们有了一个线性分类...
  • SMF0504
  • SMF0504
  • 2016年10月10日 19:56
  • 1132

监督学习之分类和逻辑回归

现在让我们谈论分类问题。这就像逻辑回归一样,除了我们想预测的值只能取很少数量的离散值。现在,我们将会聚焦二值分类问题,在这个问题中只能取两个值,0和1。(大多数我们在这里提到的将可以推广至多类问题。)...
  • zhulf0804
  • zhulf0804
  • 2016年08月13日 13:02
  • 2447

分类器的设计(fisher准则函数设计俩个类别的分类器)

设计线性分类器的主要步骤:            (1) 要有一组有类别标志的样本集;    (2)  要根据实际情况确定一个准则函数J ;(常用的准则函数有:fisher准则、感知准则等)  ...
  • leirenhua
  • leirenhua
  • 2013年02月28日 18:01
  • 531

监督学习最常见的四种算法

在机器学习中,无监督学习(Unsupervised learning)就是聚类,事先不知道样本的类别,通过某种办法,把相似的样本放在一起归位一类;而监督型学习(Supervised learning)...
  • laobai1015
  • laobai1015
  • 2017年07月12日 10:37
  • 1209

线性分类器设计

线性分类器设计线性分类器设计 判别函数 线性判别函数 线性分类器设计 感知器法迭代法 最小平方误差准则非迭代法 Fisher分类准则 本节内容:本节内容是根据上学期所上的模式识别课程的作业整理而来...
  • L1505624
  • L1505624
  • 2015年04月12日 16:09
  • 1682
内容举报
返回顶部
收藏助手
不良信息举报
您举报文章:监督学习初步---线性分类器
举报原因:
原因补充:

(最多只允许输入30个字)