![](https://img-blog.csdnimg.cn/20201014180756925.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
机器学习
晓源Galois
找工作状态
展开
-
机器学习|训练集、验证集和测试集
【【深度学习 搞笑教程】05 数据集划分:训练集 验证集 测试集 | 草履虫都能听懂 零基础入门 | 持续更新】https://www.bilibili.com/video/BV1Ma4y1N7Eg?测试集参加了训练,然后再进行测试,相当于提前泄漏考试信息。验证集主要用来尝试不同的超参数,从而对超参数进行调优。训练集用来对模型进行训练/学习,从而得到模型的参数。而测试集用于检验最终模型的结果。原创 2024-03-06 11:07:34 · 338 阅读 · 0 评论 -
机器学习|KNN和Kmeans
KNN-K个最近的邻居,而K是可人先预设出来的。所谓近朱者赤,近墨者黑。可以选取离当前最近的K个样本来作为辅助判断,因为本样本和最近的K个样本应该是处于一种相似的状态。以下是一个苹果和梨的识别任务。图上会出现一个未知的事物,可以结合和根据以往已经出现在图上的数据来对这个未知事物进行判断。可以选取离这个样本最近的K个样本进行判断,比如上图,让K=3,离样本最近的3个样本有两个梨子,1个苹果。那么当前样本可能会被判断为梨子。而关于最近的近也有不同的衡量来源,比如说曼哈顿距离和欧式距离。原创 2024-03-03 16:27:49 · 613 阅读 · 0 评论 -
机器学习|线性回归
线性回归是尝试使用一条直线去拟合出图上的节点。eie_iei为第i个点构成的误差,使用平方的好处一是可以避免正负抵消,二是平方有利于放大大于1的误差的影响,同时缩小误差小于1的影响。将平方项进行展开,以w作为变元,可以得到上述式子。如何使用代价函数?w是函数斜率,每一个w都会对应损失函数中的一个位置,而合适的w会使得损失函数的损失值趋于最小。代价函数的形式可能多样,可以通过找到一些梯度下降的方法来找到最小的代价函数,从而确认出最优的代价函数。耿直哥原创 2024-02-29 21:02:11 · 517 阅读 · 0 评论 -
机器学习|决策树
左图的点是一种线性不可分的情况,无法拿一条直线去将进行分开。熵的差值越大,说明这个分法能够导致系统更加稳定,效果更好。每一个节点都代表一个决策,从而导致节点的分流。熵是一种用于反映系统混乱程度的物理量。信息增益用于反映新系统和旧系统的熵差。但取得目标的过程是有所谓的好坏。而这个好坏用熵/信息增益来衡量。最终的目标肯定是要达到分类。原创 2024-02-29 19:22:30 · 347 阅读 · 0 评论 -
机器学习|ROC曲线和AUC值
模型会计算出所判断事物为汉堡🍔的概率,而这个时候还需要再设置一个阈值,使得计算出来的概率如果大于这个阈值,就会被判作是汉堡,而如果小于这个阈值的话,就会被判作不是汉堡。假正例率(False Positive Rate,简称FPR),FPR的话,越小越好,被错判为是的情况越少。也就是说,有存在两种错误情况,一种是判断为🍔,但实际并不是🍔,另外一种是判断为不是🍔,但实际是汉堡。同时不同的阈值会对应不同的图像,而可能对应不同的错误情况的情况个数。也就是说,一条ROC曲线可以对应一个分类器或者分类器的性能。原创 2024-01-28 01:21:02 · 456 阅读 · 0 评论