喂自己袋盐492-CSDN博客

原创 Task05支持向量机

令X为输入空间，k ( ⋅ , ⋅ ) k(\cdot ,\cdot )k(⋅,⋅)是定义在X × X X\times XX×X上的对称矩阵，则k是核函数当且仅当对于任意数据D = { x 1 , x 2 , ⋯ , x m } D=\left \{ x_{1},x_{2},\cdots ,x_{m} \right \}D={x。在特征空间的内积等于它们在原始样本空间中通过函数k ( ⋅ , ⋅ ) k(\cdot ,\cdot )k(⋅,⋅)计算的结果。本质与感知机一样，仍然是在求一个超平面。

2023-09-28 00:38:20 74 1

原创 Task04:详读西瓜书+南瓜书第五章（神经网络）

声明：本笔记全部图片均来自B站UP主二次元的Datawhale，视频链接：【【吃瓜教程】《机器学习公式详解》（南瓜书）与西瓜书公式推导直播合集】https://www.bilibili.com/video/BV1Mh411e7VU?回归（输出单值或多值）：套用线性回归模型，但神经网络套用线性回归模型后所导出的函数往往不是凸函数，故我们采用梯度下降法结合BP算法去确定参数。随机梯度下降未必能够走到全局最小值点，更多情况是局部极小值点，我们可以通过看测试集效果来进行考量。神经网络虽然强大，但也存在一些问题。

2023-09-24 17:47:34 81 1

原创 Task03:详读西瓜书+南瓜书第4章（决策树）

因此我们用某个特征划分的信息熵来限制下信息增益，即通过信息增益率来判断模型的好坏，这样就出现了C4.5决策树的雏形，实际上就是ID3决策树的改进。故我们可以用纯度的提升去考量算法的优劣，也就是利用信息增益，ID3决策树就是以信息增益为准则来选择划分属性的决策树。在实际第一次迭代中我们可以先遍历特征空间中的每一种特征，再看信息增益的大小，从而选出最优的划分方式。因此，C4.5决策树是先通过信息增益得到一些高于平均水平的属性，然后再选择这里面增益率最高的那一个，当然，实际操作时可根据直觉灵活应用。

2023-09-21 19:46:34 87 1

原创 Task02：详读西瓜书+南瓜书

极大似然估计推导损失函数：线性回归也可以假设为y=wx+b+e，其中e为不受控制的随机误差，从生活经验直觉来判断e应该是服从均值为0的正态分布（可用中心极限定理解释）这样我恩可以通过对e建模转为对y建模，其中的小x为已知量，然后用极大似然估计的方式求出合理的参数。1）最小二乘法：收集数据（样本点）线性回归认为是直线因为数据是有误差的，若是曲线则过拟合，故找出所有点到这条直线竖直距离最短即y与y·差最小，即均方误差最小。观察发现w的模长不影响损失函数的值，不放使分母的值为1，这样就变为了可解的优化问题。

2023-09-18 23:39:05 111 1

原创概览西瓜书与南瓜书第一二章学习笔记

四、数据决定模型的上限，算法则是让模型无限逼近上限：样本多特征多累积的经验就多，特征数值化越合理，特征收集越全，特征与标记相关性越强模型效果越好。11）归纳偏好（存疑）：不同机器学习算法产出的模型优缺点不同，各有偏好，原则上选择测试集上表现好的模型以及“简单高效”的模型。（机器学习时我们默认存在潜在某种规律“真相（真实）”），模型并不一定是我们认为的“真相”。4）样本空间是特征向量所在空间（X），标记空间（输出空间）为标记所在空间（Y）。1）算法是从数据中学得模型的具体方法，产生的结果叫模型，两者常常。

2023-09-11 22:55:08 110

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

原创 Task05支持向量机

原创 Task04:详读西瓜书+南瓜书第五章（神经网络）

原创 Task03:详读西瓜书+南瓜书第4章（决策树）

原创 Task02：详读西瓜书+南瓜书

原创 概览西瓜书与南瓜书第一二章学习笔记

空空如也

空空如也

原创概览西瓜书与南瓜书第一二章学习笔记