机器学习第一课

机器学习基础

数据集(data set ):比如,鸢尾花数据: 特征 - 种类 (全部数字化)

样本(Sample):每一行数据

除种类外,每一列表达样本的一个特征(feature):用矩阵 X描述

第i个样本行写作 X ( i ) X^{(i)} X(i)( 也叫:特征向量) 第i个样本的第j个特征值 X j ( i ) X^{(i)}_j Xj(i)

标记(label): 最后一列(种类),也是机器学习的目的(分类),用向量y表示

【注】约定用大写字母表示矩阵,小写字母表示向量

第i个样本的标记写作 y ( i ) y^{(i)} y(i)

特征空间(feature space):分类任务本质就是在特征空间进行划分

机器学习的基本任务

分类任务

一系列决策过程

二分类:选还是不选

多分类:选哪个 -> 可以转化为二分类

有些算法天然可以完成多分类任务

多标签分类:

回归任务

标签是一个连续的数字的值,不是类别

预测房屋价格

有些情况:回归任务可以简化为分类任务

分类方法

监督学习

data set 有标记(答案)

比如: KNN,线性回归和多项式回归,逻辑回归,SVM,决策树和随机森林

非监督学习

data set 没有标记,聚类分析

对数据进行降维处理(可视化)

特征提取:丢掉无用特征

特征压缩:PCA(合并相关特征,近似化)

异常检测

半监督学习

部分有标记,部分没标记

先用无监督学习处理,再用监督学习

增强学习

根据周围环境采取行动,得到反馈,不断优化模型

强人工智能

其他分类方法

批量学习 Batch Learning ( 离线学习 Offline Learning)

提前训练出模型 (一个黑盒)

优点:简单

问题:如何适应环境变化? → \rightarrow 定时重新批量学习

缺点:运算量大,在某些环境变化很快的情况下,无法适应

在线学习 Online Learning

将 输入样例 和 输出的正确结果,作为样本输入重新迭代进训练

优点:及时反映新的环境变化

问题:新的数据带来不好的变化? → \rightarrow 加强对数据进行监控

参数学习 Parametric Learning

假设统计模型:找参数 一旦学到了参数,就不再需要原有的数据集

非参数学习 Nonparametric Learning

不对模型进行建模、假设

【注】非参数不等于没参数!

  • 如何选择机器学习算法?

(KNN,线性回归,多项式回归,逻辑回归,模型正则化,PCA,SVM,决策树,随机森林,集成学习,模型选择,模型调试)

奥卡姆的剃刀:简单的就是好的 特定领域可能特定算法更好

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值