机器学习
文章平均质量分 88
bulingg
打怪升级的散养研究生一枚
展开
-
机器学习中的线性模型和非线性模型
线性模型通常易于解释,计算效率较高,而非线性模型则可以模拟更加复杂的数据结构,但可能需要更多的数据和计算资源,并且模型的可解释性可能较差。在实际应用中,选择哪种模型通常取决于数据的特性和所要解决的问题。线性模型是基于线性假设的模型,即输出是输入特征的线性组合。非线性模型可以捕捉数据中的非线性关系。原创 2024-04-28 19:36:50 · 818 阅读 · 0 评论 -
SVM中常用的核函数及适用场景
核函数(Kernel functions)在机器学习中尤其是在支持向量机(SVM)中扮演着重要的角色,它们能够将数据映射到高维空间,从而解决非线性问题。在实际应用中,选择核函数通常取决于问题的具体需求和数据集的特性。通常需要通过交叉验证等方法来调整核函数的参数,以达到最佳的模型性能。原创 2024-04-28 19:35:51 · 1896 阅读 · 0 评论 -
集成学习——随机森林
随机森林是一种集成学习方法,它通过构建多个决策树并将它们的预测结果进行汇总来做出最终的决策。每棵树都是在数据集的一个随机子样本上训练得到的,并且在分裂节点时只考虑特征的一个随机子集。这种随机性有助于提高模型的泛化能力,减少过拟合。最终的预测结果是通过对所有树的预测进行投票(分类问题)或平均(回归问题)得到的。原创 2024-04-19 18:34:28 · 936 阅读 · 0 评论 -
机器学习——逻辑回归
总结来说,交叉熵损失函数在逻辑回归中被广泛采用,是因为它与逻辑回归模型的概率输出相匹配,可以提供良好的梯度信息,保证了损失函数的凸性。原创 2024-04-19 18:18:30 · 458 阅读 · 0 评论 -
二分类模型来解决多分类问题
One-vs-Rest,也称为 One-vs-All,是将多分类问题分解为多个二分类问题的一种方法。对于有 ( N ) 个类别的多分类问题,OvR策略会创建 ( N ) 个二分类模型,每个模型负责将一个类别与其它所有类别区分开来。Error-Correcting Output Codes是一种更复杂的策略,它通过创建多个二分类器,并将多类标签编码为二进制串来工作。One-vs-One策略是另一种解决多分类问题的方法,它通过在每对类别间训练一个二分类模型来工作。个类别的问题,会训练。原创 2024-04-10 15:22:03 · 373 阅读 · 0 评论 -
常用的回归损失函数
对于选择损失函数,需要考虑模型的具体需求和数据的特点。例如,如果数据包含许多异常值,可能会选择Huber损失或MAE来减少异常值的影响。如果模型需要惩罚大的误差,MSE或RMSE可能是更好的选择。原创 2024-04-10 15:18:47 · 967 阅读 · 0 评论 -
统计学中不同相关系数的比较
Pearson是对线性关系的度量,对于非线性关系和非正态分布的数据可能不是很敏感。Kendall和Spearman是非参数方法,它们对于非正态分布的数据和非线性关系更为稳健,但通常具有较低的统计效能。Spearman通常对异常值更为敏感,而Kendall在处理小样本数据或有许多重复值的数据时更为可靠。原创 2024-03-15 14:31:29 · 1054 阅读 · 0 评论 -
机器学习各类算法的优缺点
介绍常见机器学习模型的优缺点,比如逻辑回归,k近邻,朴素贝叶斯,支持向量机原创 2024-02-29 16:01:09 · 1129 阅读 · 0 评论 -
机器学习中类别不平衡问题的解决方案
类别不平衡(class-imbalance)就是指分类任务中不同类别的训练样例数目差别很大的情况。原创 2024-02-28 21:53:57 · 2310 阅读 · 0 评论 -
机器学习-模型评估与选择
为了判断模型的优劣以及是否过拟合,观察模型在测试集上的误差(泛化误差),需要尽可能使训练集和测试集中的额样本互斥,可以采用以下方法从数据集D中产生训练集S和测试集T。原创 2023-04-18 11:29:22 · 139 阅读 · 1 评论 -
预测方法与实践(一)
描述了预测常见的几种方法,以及相关基础知识原创 2023-12-15 15:59:17 · 67 阅读 · 0 评论 -
数据标准化方法及应用场景
介绍了6种数据标准化方法,及标准化的目的原创 2023-12-15 14:36:54 · 238 阅读 · 0 评论 -
数据分布类型及处理方式
讲述了常见的6种数据分布形势,以及对应的概率函数,期望和方差原创 2023-11-03 12:51:35 · 425 阅读 · 0 评论 -
GBDT和XGBoost的原理
集成学习通过构建多个学习器来完成学习任务,主要分为以下两大类:本节主要讲述Boosting:step1,从初始训练集训练出一个基学习器step2,根据基学习器的表现对训练样本分布进行调整,使得先前基学习器做错的训练样本在后续受到更多关注step3,基于调整后的样本分布来训练下一个基分类器step4,重复进行上述操作,直到基学习器数目达到事先指定的值Tstep5,将T个基学习器进行加权结合以决策树(分类树或者回归树)为基函数的提升树的提升方法称为提升决策树,简称提升树。提升树是加法模型和前向分布算法原创 2023-10-31 16:52:17 · 90 阅读 · 0 评论 -
KNN算法
介绍了k近邻算法的基本思想,以及在大数据量前提下,构造kd树的思想原创 2023-08-15 12:02:46 · 47 阅读 · 0 评论 -
机器学习——决策树
介绍了决策树中的常见算法,如ID3,C4.5,CART,以及处理属性缺失和属性连续取值的方法原创 2023-08-07 13:41:40 · 40 阅读 · 1 评论 -
潜在语义分析和概率潜在语义分析
描述了潜在语义分析中的单词向量模型和话题向量模型,以及两者之间的映射和推到;然后介绍了概率潜在语义分析的基本概念,生成模型和共现模型原创 2023-08-06 09:46:00 · 251 阅读 · 0 评论 -
集成学习——Boosting的基础概念
介绍了在分类问题中国Boosting算法的基本概念,以及代表算法AdaBoost的流程,同时还介绍了前向分布算法和提升树原创 2023-08-05 10:18:25 · 122 阅读 · 1 评论 -
机器学习——聚类算法
介绍了聚类算法中常用知识点,包括距离或相似度,类间距离的定义,以及层次聚类和Kmeans聚类算法原创 2023-07-31 12:40:11 · 368 阅读 · 1 评论 -
机器学习及监督学习概论
参数模型,非参数模型,生成式模型,判别式模型,模型选择和评估原创 2023-07-13 16:38:12 · 275 阅读 · 1 评论 -
感知机算法
感知机算法的原始形式及对偶形式,以及感知机模型和损失函数原创 2023-07-13 18:18:02 · 73 阅读 · 1 评论 -
生成式模型和判别式模型
生成式模型和判别式模型原创 2023-07-06 20:11:31 · 79 阅读 · 1 评论