【西瓜书】【南瓜书】第一，二章学习笔记

qq_31514061

已于 2022-06-14 23:52:12 修改

阅读量140

点赞数

分类专栏：西瓜书文章标签：学习机器学习人工智能

于 2022-06-14 23:29:43 首次发布

本文链接：https://blog.csdn.net/qq_31514061/article/details/125288141

版权

西瓜书专栏收录该内容

5 篇文章 0 订阅

订阅专栏

第一章

机器学习：
	就是从已知的数据中寻找规律，用来预测未知的样本
1.基本术语
	1.1数据集
		包含事物或对象某些方面特征的集合
	1.2特征
		模型输入需要数值化，对于较为抽象的输入，如声音等信息，需要将其转化为数值，才能输入模型。转化后的输入，被称作特征
	1.3特征向量
		就是把事物所有的属性转化为一组数值向量
	1.4训练集
		        用于模型训练的训练数据集合
	1.5测试集
		最终用于评判算法模型效果的数据集合
	1.6分类 
		预测值为类别（离散值）或在类别上的概率的分布
	1.7回归
		预测值为数值型（连续值）
	1.8泛化能力
		学习的模型适用于新样本的能力
2.假设空间
	样本特征的所有可能假设组成
3.版本空间
	存在着与训练集一致的假设集合
4.归纳偏好
	机器学习在某种学习过程中在假设空间对假设进行的选择
5.机器学习应用
	很多时候，我们有数据，希望找到规律，但规律很复杂，所以希望靠机器来挖掘规律
	知道花朵的大小、颜色等信息，来判断花的种类
	知道身体血压、血脂等指标，来预测是否患病
	知道房屋的大小、位置等信息，来预测房价
	知道企业的业务、规模等信息，来预测股价

第二章

	2.1训练误差
		在训练集上的误差
			注意：在新样本的 误差称为泛化误差
	2.2过拟合
		1.模型失去了泛化能力。
		2.模型在训练集和验证集上都有很好的表现，但在测试集上表现很差，一般认为是发生了过拟合
	2.3欠拟合
		模型没能建立起合理的输入输出之间的映射。当输入训练集中的样本时，预测结果与标注结果依然相差很大
	2.4评估方法
		2.4.1留出法
			将数据集分为两个互斥集合，分别作为训练集和测试集
		2.4.2交叉验证法
			初始采样分割成K个子样本，一个单独的子样本被保留作为验证模型的数据，其他K-1个样本用来训练。交叉验证重复K次，每个子样本验证一次，平均K次的结果
		2.4.3自助法
			对数据集A进行随机采样复制到数据集B中，然后再将该样本放回A中，重复M次采样，将B作为训练集，A作为测试集。
		2.4.4调参与最终模型
			先建立模型，并将模型权重随机初始化，之后将训练样本输入模型，可以得到模型预测值。使用模型预测值和真实标签可以计算损失值。通过loss可以计算梯度，调整权重参数，从而得到最终模型
	2.5性能度量
		2.5.1错误率
			分类错误的样本数占总样本的比率
		2.5.2精度
			精度=1-错误率
		2.5.3查准率
			也称为准确率
		2.5.4查全率
			也称为召回率
			P为查准率，R为查全率

在这里插入图片描述

		2.5.5F1
			用于学习器比较谁优
		2.5.6ROC曲线
			横轴：假正例率
			纵轴：真正例率
		2.5.7AUC曲线
			ROC曲线下的面积

qq_31514061

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
【西瓜书】【南瓜书】第一，二章学习笔记

【西瓜书】【南瓜书】学习笔记-第1，2章
复制链接

扫一扫

专栏目录

【西瓜书】【南瓜书】第一，二章学习笔记

第一章

第二章

“相关推荐”对你有帮助么？