MOOC《人工智能:模型与算法》笔记 chapter 5

这一章围绕机器学习中的一个重要方法——监督学习展开,分别从机器学习的基本概念,线性回归分析,提升算法三个方面来介绍。 

一·机器学习: 从数据中学习知识

机器学习:
1. 原始数据中提取特征
2. 学习映射函数 𝑓
3. 通过映射函数 𝑓 将原始数据映射到语义空间,即寻找数据和任务目标之间的关系
机器学习的分类
1.监督学习 (supervised learning)
数据有标签、一般为回归或分类等任务
2.无监督学习 (un-supervised learning)
数据无标签、一般为聚类或若干降维任务
3.强化学习 (reinforcement learning)
序列数据决策学习,一般为与从环境交互中学习
可以将1,2合称为半监督学习
对于监督学习所达到的效果,我们期望的是经验风险和期望风险都很小,除了这一种可能性,往往还会出现以下可能情况。

二·线性回归(linear regression)

线性回归是监督学习的主要学习任务之一。在现实生活中,往往需要分析若干变量之间的关系,如碳排放量与气候变暖之间的关系、某一商品广告投入量与该商品销售量之间的关系等,这种分析不同变量之间存在关系的研究叫回归分析,刻画不同变量之间关系的模型被称为回归模型。如果这个模型是线性的,则称为线性回归模型。
下面以莫纳罗亚山(夏威夷岛的活火山)从1970年到2005年每5年的二氧化碳浓度为例,介绍线性回归。
根据表中的x,y可以求解出a,b的值。因此可以得到:预测莫纳罗亚山地区二氧化碳浓度的一元线性回归模型为“ 二氧化碳浓度 =1.5344 × 时间年份 − 2698.9” , 即𝑦 = 1.5344𝑥 − 2698.9。

三·提升算法

3.1Boosting (adaptive boosting, 自适应提升):

对于一个复杂的分类任务,可以将其分解为若干子任务,然后将若干子任务完成方法综合,最终完成该复杂任务。
将若干个弱分类器 (weak classifiers) 组合起来,形成一个强分类器(strong classifier)

3.2计算学习理论:

霍夫丁不等式(Hoeffding’s inequality)

概率近似正确 (probably approximately correct, PAC)

对于统计电视节目收视率这样的任务,可以通过不同的采样方法(即不同模型)来计算收视率。 每个模型会产生不同的误差。 问题:如果得到完成该任务的若干“弱模型”,是否可以将这些弱模型组合起来,形成一个“强模型”。该“强模型” 产生误差很小呢?这就是概率近似正确(PAC)要回答的问题。

3.3Ada Boosting 实现

思路描述
Ada Boosting 算法中两个核心问题:
在每个弱分类器学习过程中,如何改变训练数据的权重:提高在上一轮中分类错误样本的权重。
如何将一系列弱分类器组合成强分类器:通过加权多数表决方法来提高分类误差小的弱分类器的权重,让其在最终分类中起到更大作用。同时减少分类误差大的弱分类器的权重,让其在最终分类中仅起到较小作用。
  • 3
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值