Python机器学习
文章平均质量分 93
zyq~
学生努力中
展开
-
【自学笔记】支持向量机(4)——支持向量回归SVR
SVM解决了分类问题,而用类似方法解决回归问题的模型称为。目标是得到一个模型,使输出的fx与y尽可能接近。传统的回归模型直接计算fx与y的差距作为损失,当两者完全相等时损失为0;而SVR加入了支持向量,使得模型能够容忍ε的偏差,即在距离fx不超过ε的样本被认为预测正确,损失为0。原创 2024-09-25 16:30:39 · 696 阅读 · 0 评论 -
【自学笔记】支持向量机(3)——软间隔
上一回解决了SVM在曲线边界的上的使用,使得非线性数据集也能得到正确的分类。然而,对于一个大数据集来说,极有可能大体呈线性分类趋势,但是边界处混杂,若仍采用原来的方式,会得到极其复杂的超平面边界,浪费了算力。上述要求所有训练样本满足约束的分类方式称为。而允许部分样本不满足约束的分类方式则被称为。原创 2024-09-23 22:58:08 · 1302 阅读 · 0 评论 -
【自学笔记】支持向量机(2)——核函数
核函数的使用使得机器学习算法能够在复杂的特征空间中进行操作,而无需显式地计算该空间中的特征值,从而避免了“维度灾难”。核方法允许算法在高维空间中工作,同时保留了数据的原始维度,这在处理大量数据和高维数据集时非常有用。在实际应用中,选择合适的核函数对于模型的性能至关重要,这通常取决于问题的特性以及数据的分布和结构。原创 2024-09-17 00:03:28 · 1341 阅读 · 0 评论 -
【自学笔记】支持向量机(1)
海森矩阵是将函数在某一点处的所有二阶偏导数组织成一个矩阵的形式,这个矩阵可以提供函数在该点局部行为的详细信息。海森矩阵也记作H▽2fxH▽2fx我们有这样的定理:若函数在任一点的海森矩阵是半正定的,那么这个函数是凸函数。原创 2024-09-11 21:01:07 · 1749 阅读 · 0 评论 -
【自学笔记】线性判别分析LDA
最后我们来比较一下PCA和LDA的差异,以便针对不同数据选择更好的处理方式。当然,GPT很乐意为此效劳。原创 2024-09-06 23:59:49 · 839 阅读 · 0 评论 -
【自学笔记】处理类别数据、独热编码和降维(主成分分析)
协方差(Covariance)是统计学和概率论中一个重要的概念,用于度量两个随机变量的线性相关程度。它描述了两个变量如何一起变化,即一个变量的值相对于其平均值变化时,另一个变量的值相对于其平均值变化的趋势和程度。对于两个随机变量XXX和YYY,它们的协方差CovXYCov(X, Y)CovXYCovXYEX−μxY−μyCovXYE[(X−μxY−μy)]原创 2024-09-04 16:56:52 · 1012 阅读 · 0 评论 -
【自学笔记】决策树
看过《Python机器学习》的都知道,逻辑回归后先讲了支持向量机,然后是核支持向量机,然后才是决策树。那为什么我先写决策树呢?。此外,本篇内容也参考了西瓜书《机器学习》的相关内容。原创 2024-08-28 13:43:35 · 916 阅读 · 0 评论 -
【自学笔记】KNN算法
KNN算法,全称为K-Nearest Neighbors Algorithm,中文名K近邻算法,是一种监督学习算法,既可以用于分类问题也可以用于回归问题。原创 2024-08-09 23:56:20 · 680 阅读 · 0 评论 -
【自学笔记】逻辑回归
若继续使用Jw⃗∑i12ϕzi−yi2Jw∑i21ϕzi−yi2,会导致出现多个极小值点,无法梯度下降到最小值。【For非数学专业】通俗理解似然函数、概率、极大似然估计和对数似然假设数据集中每一个样本相互独立,则:Lw⃗Py⃗∣x⃗;w∏i1m。原创 2024-08-08 22:32:48 · 587 阅读 · 0 评论 -
【自学笔记】过拟合与正则化
分类任务的本质其实是找到边界,将不同类型的数据区分开,之前我们做的是尽量让这个边界更贴近每一个数据点,达到拟合的作用。然而,极端数据的存在或要求模型的特征数过多,会导致现象的出现。它会导致模型在训练集表现优异,但是在测试集准确率不高,这显然不是我们想要的。原创 2024-08-09 00:04:07 · 757 阅读 · 0 评论 -
[自学笔记]感知器与各种梯度下降
感知器的实现原创 2024-08-04 22:42:47 · 1035 阅读 · 0 评论