机器学习的监督学习在研究什么

原创 2017年03月17日 20:05:08

什么是监督学习

简单来说,监督学习是对给定的输入输出样本进行学习并建立一个模型,该模型能对任意输入做出好的输出预测。
这里写图片描述

监督学习核心思想

  • 所有可能的模型函数的集合称为假设空间,H={f|Y=f(X)}
  • 对于所有的模型函数集合,可能不知道是该用用逻辑回归模型、或贝叶斯模型、或神经网络模型还是用支持向量机模型。这个过程通常是一个不断迭代的过程,只有在不断地尝试比较才知道哪个模型比较好。
  • 假设选定一个模型f,对于输入X,预测值为f(X),预测值与Y可能存在差别,这个差别用损失函数L(Y,f(X))表示,而平均损失则称为经验风险,记为Remp(f)=1NNi=1L(yi,f(xi))
  • 为了得到最优的模型需要将经验风险最小化,minRemp(f),即 min1NNi=1L(yi,f(xi))
  • 当样本数较少时,有时会为了迎合经验风险最小化而导致过拟合现象,这时需要引入正则项,这也是符合奥卡姆剃刀原理。则变为Rsrm(f)=1NNi=1L(yi,f(xi))+λΩ(f),模型f越复杂,复杂度就越大,复杂度是对模型复杂程度的惩罚。

常见损失函数

  • 0-1损失函数
    L(Y,f(X))={1,0Y != f(X)Y = f(X)
  • 平方损失函数
    L(Y,f(X))=(Yf(X))2
  • 绝对损失函数L(Y,f(X))=|(Yf(X))|
  • 对数损失函数L(Y,P(Y|X))=logP(Y|X)

模型选择

  • 要怎么选择模型?怎样评判模型的好坏?这时就需要一些评判标准:训练误差和测试误差。
  • 训练误差,假设确定了一个模型f,训练误差就是训练数据集关于该模型f的平均损失,损失函数见上面。
  • 测试误差,假设确定了一个模型f,测试误差就是测试数据集关于该模型f的平均损失,损失函数见上面。
  • 关于过拟合问题,我们需要正则项λΩ(f)去抑制模型的复杂度,典型的正则化项可以使用模型f的参数向量的范数。
  • 通过上面策略可以得到最优的模型。
  • 另外方法是使用交叉验证,将样本预留一部分来检查不同模型的误差。

泛化能力

使用训练方法学习到的模型对未知数据的预测能力。一般通过泛化误差来评价一个模型的泛化能力,泛化误差越小,模型的泛化能力就越强。

欧卡姆剃刀原理

所有可能的模型中,能够很好地解释已知数据并且十分简单的才是最好的模型,从贝叶斯估计角度看,正则化项对应于模型的先验概率,负责的模型有较小的先验概率,简单的模型有较大的先验概率。

一句话

监督学习就是在正则化项约束下去寻找最小化误差的模型。

========广告时间========

公众号的菜单已分为“分布式”、“机器学习”、“深度学习”、“NLP”、“Java深度”、“Java并发核心”、“JDK源码”、“Tomcat内核”等,可能有一款适合你的胃口。

鄙人的新书《Tomcat内核设计剖析》已经在京东销售了,有需要的朋友可以购买。感谢各位朋友。

为什么写《Tomcat内核设计剖析》

=========================

欢迎关注:
这里写图片描述

版权声明:本文为博主原创文章,未经博主允许不得转载。

sublime插件安装,配色方案

从windows下转到mac下开发后,第一个不适应就是没有IDE了,然后就开始寻找合适的编辑工具,最终在vim和sublime之间抉择,想想vim那么多的命令操作就脑袋疼,再加上sublime默认的界...

谁在使用我的网站——用户行为分析

谁在使用我的网站——用户行为分析 前面根据用户的特征对用户做了分类,设定了一些常用的用户指标和值得关注的用户指标,基于这些分类用户指标的分析可以发现用户运营和推广中的诸多问题,其中活跃用户和流失用户...

Standford机器学习 聚类算法(clustering)和非监督学习(unsupervised Learning)

k-means是简单的聚类算法,在实现过程中有很多需要注意的地方,比如如何什么时候用k-means,怎么样判定k-means工作正常,k的值怎么选取,本文讲解关于k-means的方方面面...

机器学习->监督学习->logistic回归,softMax回归

本篇博文来总结一下回归模型里面两个非常重要的模型。 logistic回归 softMAX回归 Logistic回归logistics回归虽然有“回归”两字但是却是分类模型,并且是个二分类模型。logi...

周志华 《机器学习》之 第十三章(半监督学习)概念总结

在前面章节中接触到的大部分都是监督学习方法以及无监督学习方法(聚类),这章讲述的半监督学习,我个人理解,应该是存在一部分标记样本,但是又不足以训练出一个良好性能的学习器,因此采用将其它未标记样本加入其...

【MOOC】Python机器学习应用-北京理工大学 - 【第二周】有监督学习

本周课程导学监督学习的目标利用一组带有标签的数据,学习从输入到输出的映射,然后将这种映射关系应用到未知数据上,达到分类或回归的目的。 分类:当输出是离散的,学习任务为分类任务。 回归:当输出是连续的,...
  • linzch3
  • linzch3
  • 2017年07月25日 20:34
  • 1154

机器学习笔记11——无监督学习之k-means聚类算法

无监督学习 k-means聚类算法 混合高斯模型 EM算法

非监督学习之混合高斯模型和EM算法——Andrew Ng机器学习笔记(十)

0、内容提要这篇博文主要介绍: - 混合高斯模型(mixture of Gaussians model) - EM算法(Expectation-Maximization algorithm)1、引...

机器学习(一)--- 监督学习之回归

参考学习资料:http://cs229.stanford.edu/materials.html 通过对学习,掌握的知识点包括: 什么是 cost fuction      Linear regre...

斯坦福大学公开课 :机器学习课程(Andrew Ng)——9、无监督学习:K-means Clustering Algorithm

1)K-means聚类算法(K-means Clustering Algorithm)描述 2)2-means聚类算法(K-means Clustering Algorithm)效果展示图片 3)k...
  • mmc2015
  • mmc2015
  • 2015年01月05日 10:52
  • 1546
内容举报
返回顶部
收藏助手
不良信息举报
您举报文章:机器学习的监督学习在研究什么
举报原因:
原因补充:

(最多只允许输入30个字)