《PRML》第一章 读书笔记.1

模式识别概述

1、模式识别

使用算法自动发现数据中的规律,并利用这些规律实现回归、分类等任务。例如手写数字识别(MINIST数据)

2、模式识别的几个步骤

  • 特征工程(数据准备):
    ①一般同一个算法需要的输入数据都是一致的
    ②有助于提高计算速度、收敛速度(如归一化)Fig.2

  • 模型(算法)设计:线性回归、支持向量机(SVM)、神经网络

  • 训练与验证:
    1) 将数据按比例( η=0.8 )将数据分为训练集与测试集;
    2) 训练阶段,不断调整参数,以期模型能正确判断
    3) 验证:通过验证模型在新的样本上的正确性一测试其泛化能力;如果训练阶段表现非常好、验证阶段表现太差则成为过拟合。(对过去了如指掌,对未来一无所知。 —Luke)

3、三个任务

  • 监督学习:从银行卡号识别别所属银行、对应卡产品,再比如手写数字识别、画出图片中的卡边界(Fig.2)

  • 非监督学习:鸡尾酒会问题(使用独立成分分析)

  • 增强学习:通过反馈评分的方式训练机器人行走、搬东西、玩游戏等

这三个任务所处理的场景各不相同,但其中的一些基本概念、思想是一致的。

4、多项式拟合

  • 数据形式(x, y)

  • 模型(算法):多项式拟合

  • 参数学习:最小化损失函数

  • 模式选择:选择合适的M,确定模型

    trick: 使用均方根对比不同size的数据下模型的损失函数

  • 如果把数据增加,对于M=9的模式

    可以看到,当数据增加时,原本过拟合的模型也可以拟合的比较好,也就是说数据量越大越有利于复杂的模型拟合数据,一般认为数据量应该是参数量的5~10倍。后面将看到,参数数量并不是最合适的表示模型复杂度的参数。

  • 实际情况是数据量不多,模型复杂容易过拟合。防止过拟合:正则化、贝叶斯方法

    岭回归:

    使用正则化以后,对于合适的正则化,复杂的模型也可以较好的拟合数据,并不会出现过拟合。而当正则化项过大时,也会出现欠拟合的情况。

概率论

模式识别中的一个关键概念:不确定性。造成不确定性的因素是噪声及有限的数据。结合决策理论,即便有用的信息不完整或者模糊不清,也可以做出相对最优的预测。

1、基本概念

  • 联合概率: p(X=xi,Y=yj)=nijN
  • 边缘概率: p(X=xi)=2j=1p(X=xi,Y=yj)
  • 条件概率: p(Y=yj|X=xi)=nijni

边缘概率的另一种表示: p(X=xi)=niN

  • 1
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值