DataWhale-西瓜书Task01

最新推荐文章于 2024-08-19 17:13:13 发布

it。

最新推荐文章于 2024-08-19 17:13:13 发布

阅读量264

点赞数

分类专栏：西瓜书文章标签：机器学习深度学习人工智能

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_43502549/article/details/127268261

版权

西瓜书专栏收录该内容

1 篇文章 0 订阅

订阅专栏

西瓜书第一章
基本术语：

模型（model）
学习算法（learning algorithm）
样本（sample）：一条关于西瓜的描述记录，例如（色泽=乌黑；根蒂=稍倦；敲声=沉闷）
D={X1,X2,…,Xm}表示包含m个样本的数据集
Xi={Xi1，Xi2，…，Xid}，其中Xij是Xi在第j个属性上的取值，d称为样本的“维数（dimensionality）”
标记（lable）：指样本结果这一信息，比如“好瓜”、“坏瓜”
样例（example）：指拥有标记信息后的样本
回归（regression）：若欲预测的是连续值，此类的学习任务称为回归任务，例如西瓜的成熟度：0.95、0.70、0.37
分类（classification）：若欲预测的是离散值，此类的学习任务称为分类任务，例如“好瓜”、“坏瓜”
二分类任务（binary classification）：一个类是正类（positive class），另一个类是反类（negative class）
测试（testing）：利用模型对样本进行预测的过程，被预测的样本称为”测试样本“
聚类（clustering）：将数据集分为若干组，每组就称为一个簇
监督学习（supervised learning）和无监督学习（unsupervised learning）：根据训练数据是否有标记
泛化（generalization）能力：模型适用于新样本的能力
独立同分布
归纳（induction）和演绎（deduction）
版本空间（version space）：与训练集一致的假设集合

第二章：模型评估与选择

错误率（error rate）：E=a/m
精度（accuracy）：精度=1-错误率
误差（error）：
训练误差（training error）：
泛化误差（generalization error）：
过拟合（overfitting）：将样本本身的一些特点当作了所有潜在样本都会具有的一般性质
欠拟合（underfitting）：对训练样本的一般性质尚未学习好
采样（sampling）：
分层采样（stratified sampling）：保留类别比例的采样方式
评估方法：留出法、交叉验证法、自助法、
验证集（validation set）：用于评估测试的数据集
查准率（precision）：挑出的西瓜中有多少比例是好瓜
查全率（recall）：所有的好瓜中有多少比例被挑了出来
F1
BEP（平衡点）：
统计假设检验：
McNemar检验：
Friedman检验和nemenyi后续检验
偏差-方差分解（bias-variance decomposition）：解释学习算法泛化性能的一种重要工具

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
1
评论
DataWhale-西瓜书Task01

西瓜书基本术语：第一章第二章：模型评估与选择
复制链接

扫一扫

专栏目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。