自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(6)
  • 收藏
  • 关注

原创 西瓜书学习笔记-第六章

当有了数据之后,考虑的是怎么把数据分开,而数据分开的一个思想是数据上升维,比方说一副二维图像,有一些点,可以人为的让某些点在三维空间中更高从而生成一个平面可以切割开来。但是某些数据并不一定可以找到一个完美的超平面来进行切割,于是提出了软间隔和正则化,假定一个死区,来让误差尽可能的小,尽可能最大的分隔开数据集。本章主要介绍支持向量机。

2023-08-05 23:54:19 54 1

原创 西瓜书学习笔记第五章

然后介绍了多层神经元构成的神经网络,以及神经网络各层如何更新参数,这里提出了根据梯度下降法进行参数的更新,使得误差函数最小,由于某一个函数并不一定仅仅存在一个极小值,所以有可能陷入局部极小值而不是全局极小值。神经网络模仿于神经元,拟定了输入和输出,给输入输出增加一个权值来进行调节,若干个神经元组合在一起就形成了神经网络。然后介绍了各种其它类型的神经网络结构,最后介绍了深度学习和卷积神经网络。本章讲了神经网络这个近年来非常火的话题。

2023-08-02 22:04:01 57

原创 西瓜书第四章学习笔记

同样的道理,我们如果将数据进行一次分类,那么,他的信息熵必然不会大于原始的信息熵,如果原始信息熵于现有信息熵的差值大于0,说明我们本次分类是有效的,减少了无用的信息。信息熵是一种描述信息混乱程度的度量,未知的东西,从直观上来说,我们对某一件事务知道的越多,那么这件事务在我们认知中的可能性越少,这样,信息的混乱程度也越少。以上的模型是基于离散的结果得到的,但如果说是连续的结果呢,我们能直接采用连续数据的采样点来进行训练决策树吗?第四章主要讲述的是用一棵树来进行数据的分类,这种树就叫决策树。

2023-07-30 01:23:54 48 1

原创 西瓜书学习笔记第三章(2)

3.5节为多分类学习,该节提出怎么用二元的即只能输出两个答案的分类器进行分类多个不同类别的数据集,并且提出一对一、一对多、多对多的分类训练思想。然后提出了怎么将不同分类器的结果进行整合,并且参考编码的思想提出将各个分类器的结果进行编码,并根据码距来进行拟合判断。3.6节提出了一种叫做类别不平衡的现象,类别不平衡问题主要是产生于对训练数据的正反例偏差导致,这样会导致训练模型出现类似于过拟合的情况,作者在后面提出一种基于阈值的思想来改善该情况,但是该问题仍然有很大的研究空间。

2023-07-24 21:47:09 43

原创 西瓜书学习笔记第三章(1)

对数几率回归来源于希望找到一种模型使模型的输出具有很明显的1或者0,由此,对数模型被找了出来。因为在数据集确定的情况下,所期望的便是输入的输出尽可能的满足样本的期望,所以直接将各个样本的输入输出带入似然函数求最优化即可。既然可以得到线性模型,那么就可以使用最小二乘法得到最接近目标向量的参数,具体可以参考MIT线性代数中关于最小二乘法的部分。第三章为线性模型,就是以一个线性可表示的模型去进行分类,因为数据不仅仅只在二维三维空间中。线性回归即假设模型为纯粹的线性模型。为正定矩阵或满秩的情况,不然没有逆。

2023-07-21 22:54:19 54 1

原创 西瓜书学习笔记-第一二章

我们再回过头来看,我们是选取了数据集来训练和检验它,那么我们的数据集就一定代表我们真实的实际情况吗,所以这时就引入了统计学,具体一点就是我们的数据集到底能代表几分真实情况,通过引入几种典型的统计模型,让我们对测试结果的真实程度也就是说服力有了一个统计意义上的度量,通俗来说,就是我们的测试结果究竟有多可靠。当我们有了数据集去测试它的时候,我们对测试的结果又怎么评价,什么结果是好的,什么结果是坏的,作者给出了一系列的标准。这两章看下来更像是为全书定下一个基调,即什么是机器学习,如何量化机器学习。

2023-07-21 00:59:40 56 1

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除