机器学习
文章平均质量分 94
机器学习相关算法学习。
weixin_42924890
这个作者很懒,什么都没留下…
展开
-
K近邻算法
这样不一定是最好的,假设k=5,其中有两种类别的样本都是2票,此时产生平票的问题,当然我们可以随便选一个返回,这样做就过于简单直接了。实际使用knn时,往往需要根据业务场景对参数进行网格搜索,以便获取一组最佳的参数组合,本文只是knn算法学习理解,暂不涉及sklearn中网格搜索的内容。缓解上面平票情况,可以考虑距离的因素,离得近他的票就应该占比大,实际上这也是合理的,这种考虑距离的因素就是为前k个样本赋予了权重。k近邻算法是非常特殊的,可以被认为是没有模型的算法,仅统计当前样本中前k个样本的票数。原创 2024-02-05 14:34:59 · 876 阅读 · 1 评论 -
逻辑回归学习和理解
逻辑回归(Logistic Regression)解决二分类问题,改造算法可以实现多分类问题。本文主要从二分来推导分析逻辑回归算法。文章公式较多还请慢慢思考。我们来花费一些时间来推导逻辑回归的计算公式,主要是损失函数推导过程和梯度求解以及梯度的向量化,这是十分重要的,因为在使用RNN循环神经网络做分类的时候可能会和这里的推导有关系,这里的推导过程如果可以明白,那么我们完全可以使用numpy包实现一个简单的RNN的神经网络。强烈建议将这里的公式推导弄明白,再看RNN时,就不会被那么多公式劝退了。对于一个线原创 2024-01-20 17:35:50 · 871 阅读 · 0 评论 -
分类模型常用的评估指标
准确度 考虑所有样本,预测对的除以总的样本数,比较直接。精确度 允许模型犯点错误,针对某一类别预测对的除以总的预测数。召回率 严格模型尽量不犯错,针对某一类别预测对的除以该类别总测试数。F1 精确度和召回率调和平均值,两者都高的情况下F1才会高。混淆矩阵 分类组成的方阵 行是召回率分析,列是精确率分析。遗留混淆矩阵中的macro avg和weighted avg参数分析和PR曲线、ROC曲线,未完待续~原创 2024-01-12 20:54:11 · 972 阅读 · 0 评论 -
PCA 主成分分析法下
降维:PCA 算法通过选取较多信息量的前kkk个主成分来进行降维操作,这样原数据保留的信息最多。降噪:PCA降维后将数据返回到原本的高维空间过程中,可以实现”保证维度,但去掉方差很小的特征所带的信息。过拟合:PCA 保留了主要信息,但这个主要信息只是针对训练集的,而且这个主要信息未必是重要信息。有可能舍弃了一些看似无用的信息,但是这些看似无用的信息恰好是重要信息,只是在训练集上没有很大的表现,所以 PCA 也可能加剧了过拟合。特征独立:PCA 不仅将数据压缩到低维,它也使得降维之后的数据各特征相互独立。原创 2024-01-18 14:55:56 · 830 阅读 · 1 评论 -
PCA 主成分分析法上
我们用一个二维数据来看一下如何找一个轴(平面中的直线或方向向量)使得样本数据在这个轴的特征分布是最好的(最能代表原数据)假设有5个样本2个特征X5×2X5×2,分布在二维平面上,如果我们把样本数据映射到某一个直线上,使其特征分布尽量的和原始数据保持一致,该怎么处理,很自然的想法有2个。1)将原始数据向x轴做投影 2)将原始数据向y轴做投影。这样都可以把数据映射到直线上或者可以说是直线的方向向量上。但是这样做是不是做好的呢?还有没有其他方法了呢?原创 2024-01-16 20:25:05 · 977 阅读 · 1 评论 -
交叉熵函数
交叉熵损失函数的定义和计算公式。torch中交叉熵损失函数的用法和公式理解。自己实现代码熟悉交叉熵函数计算的过程。原创 2024-01-21 18:21:18 · 1927 阅读 · 0 评论 -
批量梯度下降法
Python 模拟梯度下降法。原创 2024-01-26 20:28:53 · 952 阅读 · 1 评论