人工智能笔记06 机器学习基础

JamSlade

已于 2022-05-10 14:32:44 修改

阅读量1.4k

点赞数

分类专栏：人工智能入门文章标签：人工智能

于 2022-04-12 15:41:55 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/JamSlade/article/details/124121708

版权

人工智能入门专栏收录该内容

23 篇文章 25 订阅

订阅专栏

什么是机器学习

机器学习是从人工智能中产生的一个重要学科分支，是实现智能化的关键

经典定义：利用经验改善系统自身的性能

随着该领域的发展，其目前主要研究智能数据分析中的理论和方法，并已成为智能数据分析技术的源泉之一

基本概念

学习过程

数据类编标记
使用学习算法训练
得到模型标记新数据样本

基本术语

监督学习、无监督学习
数据集；训练；测试
示例(instance)、样例（example)
样本(sample)
属性（attribute)、特征(feature)、属性值
属性空间、样本空间、输入空间
特征向量（feature vector）
标记空间、输出空间

假设 hypothesis
真相 ground-truth
学习器 learner

分类、回归
二分类、多分类
正类、反类

未见样本 unseen instance
未知“分布”
独立同分布
泛化 generalization

机器学习任务分类

根据样本数据的标记（label）特性，可将机器学习任务分为：

监督学习：样本特征x均有对应的样本标记y
无监督学习：样本特征x均没有对应的样本标记y
半监督学习：样本特征x大部分没有对应的样本标记y
强化学习：可近似理解为具有延迟标记信息

假设空间
学习过程–>所有假设组成空间中进行搜索
目标：找到和训练集“匹配"的假设

归纳偏好
机器学习算法在学习过程中对某类型假设偏好（必然有
归纳偏好是否与问题匹配多数情况决定了算法是否优良

一般原则：奥卡姆剃刀

No free lunch启示
所有问题出现的机会相同，所有问题同等重要
脱离具体问题讨论算法没有意义

模型评估选择

泛化能力
需要注意过拟合和欠拟合
评估方法
关键如何获得”测试集“
留出 hold-out
交叉检验法cross validation
k-折交叉检验法

在这里插入图片描述

性能度量
性能度量是衡量模型泛化能力的评价标准
反应任务需求

回归：均方误差
$E(f,\mathcal{D})=\int_{x\sim\mathcal{D}}(f(x)-y)^2p(x)dx$
分类：错误率
$E(f,\mathcal{D})=\int_{x\sim\mathcal{D}}\mathbb{I}(f(x)\neq y)^2p(x)dx$
分布D的概率密度函数为 p(x) 而 $\mathbb{I}$ 为示性函数

查准率
$P=\frac{TP}{TP+FP}$
查全率
$R=\frac{TP}{TP+FN}$

F1:查准率查全率权衡
$$F1=\frac{2\times P\times R}{P+R}=\frac{2\times TP}{样例总数+TP-TN}￥￥

偏差方差分解

总结：

机器学习任务分类
性能评估方法（例如，k-折交叉验证）与性能度量指标
（例如，均方误差、错误率）
泛化误差 vs. 经验误差

关注

0
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。