【西瓜书】【南瓜书】第一,二章学习笔记

第一章

机器学习:
	就是从已知的数据中寻找规律,用来预测未知的样本
1.基本术语
	1.1数据集
		包含事物或对象某些方面特征的集合
	1.2特征
		模型输入需要数值化,对于较为抽象的输入,如声音等信息,需要将其转化为数值,才能输入模型。转化后的输入,被称作特征
	1.3特征向量
		就是把事物所有的属性转化为一组数值向量
	1.4训练集
		        用于模型训练的训练数据集合
	1.5测试集
		最终用于评判算法模型效果的数据集合
	1.6分类 
		预测值为类别(离散值)或在类别上的概率的分布
	1.7回归
		预测值为数值型(连续值)
	1.8泛化能力
		学习的模型适用于新样本的能力
2.假设空间
	样本特征的所有可能假设组成
3.版本空间
	存在着与训练集一致的假设集合
4.归纳偏好
	机器学习在某种学习过程中在假设空间对假设进行的选择
5.机器学习应用
	很多时候,我们有数据,希望找到规律,但规律很复杂,所以希望靠机器来挖掘规律
	知道花朵的大小、颜色等信息,来判断花的种类
	知道身体血压、血脂等指标,来预测是否患病
	知道房屋的大小、位置等信息,来预测房价
	知道企业的业务、规模等信息,来预测股价

第二章

	2.1训练误差
		在训练集上的误差
			注意:在新样本的 误差称为泛化误差
	2.2过拟合
		1.模型失去了泛化能力。
		2.模型在训练集和验证集上都有很好的表现,但在测试集上表现很差,一般认为是发生了过拟合
	2.3欠拟合
		模型没能建立起合理的输入输出之间的映射。当输入训练集中的样本时,预测结果与标注结果依然相差很大
	2.4评估方法
		2.4.1留出法
			将数据集分为两个互斥集合,分别作为训练集和测试集
		2.4.2交叉验证法
			初始采样分割成K个子样本,一个单独的子样本被保留作为验证模型的数据,其他K-1个样本用来训练。交叉验证重复K次,每个子样本验证一次,平均K次的结果
		2.4.3自助法
			对数据集A进行随机采样复制到数据集B中,然后再将该样本放回A中,重复M次采样,将B作为训练集,A作为测试集。
		2.4.4调参与最终模型
			先建立模型,并将模型权重随机初始化,之后将训练样本输入模型,可以得到模型预测值。使用模型预测值和真实标签可以计算损失值。通过loss可以计算梯度,调整权重参数,从而得到最终模型
	2.5性能度量
		2.5.1错误率
			分类错误的样本数占总样本的比率
		2.5.2精度
			精度=1-错误率
		2.5.3查准率
			也称为准确率
		2.5.4查全率
			也称为召回率
			P为查准率,R为查全率

在这里插入图片描述
在这里插入图片描述

		2.5.5F1
			用于学习器比较谁优
		2.5.6ROC曲线
			横轴:假正例率
			纵轴:真正例率
		2.5.7AUC曲线
			ROC曲线下的面积
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值