机器学习
文章平均质量分 84
python收藏家
这个作者很懒,什么都没留下…
展开
-
机器学习 | 基于wine数据集的KMeans聚类和PCA降维案例
KMeans聚类:K均值聚类是一种无监督的学习算法,它试图根据数据的相似性对数据进行聚类。无监督学习意味着不需要预测结果,算法只是试图在数据中找到模式。在k均值聚类中,我们指定希望将数据分组到的聚类数。该算法将每个观察随机分配到一个集合,并找到每个集合的质心。然后,该算法通过两个步骤进行迭代:将数据点重新分配到质心最近的聚类。计算每个簇的新质心。重复这两个步骤,直到集群内的变化不能进一步减少。聚类内偏差计算为数据点与其各自聚类质心之间的欧几里得距离之和。原创 2024-08-23 17:05:48 · 766 阅读 · 0 评论 -
基于机器学习的黄金价格预测案例
在这篇文章中,我们将从头开始做一个关于黄金价格预测的项目。要构建任何数据科学项目,我们必须遵循某些步骤,这些步骤不需要以相同的顺序进行。在我们的项目中,我们将按顺序完成这些步骤。原创 2024-08-15 19:17:12 · 862 阅读 · 0 评论 -
Python | 什么是相关性分析及如何实现
世界上的大多数数据都是由各种因素相互关联的。数据科学涉及理解不同变量之间的关系。这有助于我们了解潜在的模式和联系,可以给我们给予有价值的见解。“相关性分析”是用来了解变量之间关系类型的重要工具。在本文中,我们将学习相关性分析以及如何实现它。原创 2024-08-06 23:39:29 · 829 阅读 · 0 评论 -
机器学习 | 基于sklearn中朴素贝叶斯实现分类任务的示例
机器学习是人工智能的一个子领域,它使系统能够在没有明确编程的情况下进行自我学习。机器学习可以用来解决许多真实的世界问题。本文将介绍高斯朴素贝叶斯实现简单分类任务的示例。原创 2024-07-31 23:38:12 · 579 阅读 · 0 评论 -
机器学习 | 计算分类算法的ROC和AUC曲线以随机森林为例
总之,计算随机森林分类器的ROC AUC分数在Python中是一个简单的过程。sklearn.metrics模块提供了计算ROC曲线、ROC AUC评分和PR曲线的函数。ROC曲线和PR曲线是评估二值分类器性能的有用工具,它们可以帮助基于不同评估指标之间的权衡来选择分类器的最佳阈值。PR(precision-recall)曲线是二元分类问题的另一个评估指标。PR曲线是针对不同分类阈值的精确度(y轴)对召回率(x轴)的图。原创 2024-07-24 19:56:38 · 1301 阅读 · 1 评论 -
K-Means聚类简介及示例
K-Means聚类是一种无监督机器学习算法,它将未标记的数据集分组到不同的聚类中。原创 2024-07-22 19:38:10 · 845 阅读 · 0 评论 -
机器学习 | 深入理解激活函数
在人工神经网络中,节点的激活函数定义了该节点或神经元对于给定输入或一组输入的输出。然后,将此输出用作下一个节点的输入,依此类推,直到找到原始问题的所需解决方案。它将结果值映射到所需的范围,例如0到1或-1到1等。这取决于激活函数的选择。例如,使用逻辑激活函数将把真实的数域中的所有输入映射到0到1的范围内。原创 2024-07-16 18:06:28 · 971 阅读 · 1 评论 -
机器学习 | 对K-Means聚类假设的研究演示及实践示例
我们在Scikit-learn对K-means假设的调查中探索了揭示算法优势和局限性的场景。我们研究了K-means对不正确的聚类大小的敏感性,它在各向异性分布中面临的困难,它在不同的聚类方差中面临的困难,以及使用合成数据集的大小不均匀的聚类问题。我们希望这些假设的这种可视化表示将澄清K-means的适用性,并强调选择特定于数据特征的聚类算法的重要性。原创 2024-07-11 20:53:37 · 673 阅读 · 0 评论 -
机器学习 | 随机梯度下降分类器
SGD分类器是一种线性分类算法,旨在找到最佳决策边界(超平面),以分离属于特征空间中不同类别的数据点。它通过使用随机梯度下降优化技术迭代地调整模型的参数来最小化成本函数,通常是交叉熵损失。它与其他分类器的区别随机梯度下降:与一些使用封闭形式解决方案或批量梯度下降(在每次迭代中处理整个训练数据集)的分类器不同,SGD分类器使用随机梯度下降。它增量地更新模型的参数,一次处理一个训练样本或以小批量处理。这使得它具有计算效率,非常适合大型数据集。原创 2024-07-07 18:47:07 · 713 阅读 · 0 评论 -
Python | 基于支持向量机(SVM)的图像分类案例
本文的目标是创建和训练支持向量机(SVM)模型,以准确地分类猫和狗的图像。使用GridSearchCV确定SVM模型的最佳参数,并测量模型的准确性。原创 2024-06-30 17:10:06 · 1517 阅读 · 0 评论 -
Python | 使用均值编码(MeanEncoding)处理分类特征
在特征工程中,将分类特征转换为数字特征的任务称为编码。有多种方法来处理分类特征,如OneHotEncoding和LabelEncoding,FrequencyEncoding或通过其计数替换分类特征。同样,我们可以使用均值编码(MeanEncoding)。原创 2024-06-27 17:50:30 · 933 阅读 · 0 评论 -
Scikit Learn中支持单变量特征选择的SVM示例
支持向量机(SVM)是一种强大的机器学习算法,用于分类和回归分析。它是基于找到两个类之间的最佳边界,最大限度地提高它们之间的差距的想法。然而,SVM的挑战在于它需要大量的计算能力,并且对特征的选择很敏感。这可能会使模型更加复杂,更难解释。单变量特征选择是一种用于选择数据集中最重要特征的方法。这种方法背后的思想是评估每个特征与目标变量的关系,并选择具有最强相关性的特征。对每个特征重复此过程,并根据定义的标准(如最高相关性或统计显著性)选择最佳特征。原创 2024-06-13 20:18:49 · 944 阅读 · 0 评论 -
Python | 机器学习中的卡方检验及特征选择
卡方检验是分析分类数据关联性的重要统计方法。它的应用跨越各个领域,帮助研究人员了解因素之间的关系。原创 2024-06-04 21:48:00 · 775 阅读 · 0 评论 -
机器学习 | 随机梯度下降(SGD)和Python实现
梯度下降是一个迭代优化过程,搜索目标函数的最优值(最小值/最大值)。它是改变模型参数以降低机器学习项目中的成本函数的最常用方法之一。梯度下降的主要目标是识别在训练和测试数据集上提供最大准确度的模型参数。在梯度下降中,梯度是指向函数在特定点处最陡上升的一般方向的向量。该算法可以通过在梯度的相反方向上移动而朝向函数的较低值逐渐下降,直到达到函数的最小值。原创 2024-05-21 22:51:01 · 1143 阅读 · 1 评论 -
机器学习 | 时间序列预测中的AR模型及应用
自回归(AR)模型为分析和预测时间序列数据提供了一个强大的框架。我们探讨了AR模型的基本概念,从理解自相关到拟合模型和进行未来预测。通过生成模拟温度数据集,我们能够应用AR建模。AR模型在处理平稳时间序列数据时特别有用,因为过去的值会影响未来的观测结果。滞后阶数的选择是关键的一步,可以通过检查自相关函数(ACF)图来确定。原创 2024-05-08 19:04:02 · 2377 阅读 · 2 评论 -
在Scikit-Learn中创建自定义评分器函数
步骤1:创建一个自定义函数来评估准确性创建一个接受两个参数的Python函数:模型的预测值和基础事实(实际值)。函数应返回一个用于评估预期值准确性的分数。决定系数(R²)是一种统计度量,代表统计模型预测结果的程度。它测量预测输出中由回归模型中的独立输入变量解释的方差比例。RSS =误差平方和,也称为残差平方和(RSS),用于测量回归模型无法解释的变异。它是预测值和实际目标值之间的平方差之和。TSS =总平方和(TSS)表示因变量的总变异。它是因变量的实际值与平均值之间的平方差之和。原创 2024-05-03 17:04:56 · 713 阅读 · 0 评论 -
机器学习中的CatBoost算法
CatBoost或Categorical Boosting是由Yandex开发的开源boosting库。它被设计用于具有大量独立特征的回归和分类等问题。Catboost是梯度提升的一种变体,可以处理分类和数值特征。它不需要任何特征编码技术,如One-Hot Encoder或Label Encoder将分类特征转换为数值特征。它还使用了一种称为对称加权分位数草图(SWQS)的算法,该算法自动处理数据集中的缺失值,以减少过拟合并提高数据集的整体性能。原创 2024-04-28 17:29:33 · 840 阅读 · 0 评论 -
机器学习 | 使用Python开发多输出回归模型
多输出回归或多目标回归处理需要预测多个连续目标变量的问题,这只是传统回归的扩展,我们专注于预测单目标。在多输出回归中,每个目标变量都被视为一个单独的回归问题,目标是创建一个模型,可以同时为所有目标变量生成准确的预测。多目标变量:在多输出回归中,我们使用特殊的数据集,其中有两个或多个目标变量我们想要预测。这些目标可以是相关的,也可以是独立的,它们可能代表我们试图解决的问题的不同方面或层面。评估指标:在多输出回归中,我们使用了回归任务常见的性能指标,如MSE,MAE,MAPE,R2-score等。原创 2024-04-24 19:03:58 · 2439 阅读 · 3 评论 -
机器学习 | Scikit Learn中的特征聚集
数据科学是一个广泛的领域,数据科学家通常面临着许多障碍,以便从呈现给他们的数据中获得信息性见解,其中一个障碍被称为“洞察力的诅咒”。随着数据集中数据特征数量的增加,数据集建模的复杂性呈指数级增加,并且捕获数据中有意义的模式变得更加困难。在本文中,我们将深入研究特征聚集过程,这是一种特征约简方法,有助于以更好的方式实现数据。原创 2024-04-18 18:24:46 · 1007 阅读 · 0 评论 -
机器学习 | 使用Scikit-Learn实现分层抽样
分层抽样是一种抽样方法,首先将总体的单位按某种特征分为若干次级总体(层),然后再从每一层内进行单纯随机抽样,组成一个样本。可以提高总体指标估计值的精确度。在抽样时,将总体分成互不交叉的层,然后按一定的比例,从各层次独立地抽取一定数量的个体,将各层次取出的个体合在一起作为样本,这种抽样方法是一种分层抽样。分层抽样的特点是将科学分组法与抽样法结合在一起,分组减小了各抽样层变异性的影响,抽样保证了所抽取的样本具有足够的代表性。原创 2024-04-14 19:11:17 · 1618 阅读 · 0 评论 -
机器学习 | 基于Scikit-learn中手写数字集的交叉验证
手写数字集的交叉验证将允许我们选择最佳参数,避免过度拟合训练数据集。它是一个试验的尝试程序,检查的交叉验证得分的每个参数,然后经过评估,选择最佳的程序。它也适用于商业工作流。Scikit Learn中的Digits Dataset包含UCI ML手写数字数据集的副本。它是一个非常适合初学者的分类数据集,也是学习包括CNN在内的各种机器学习算法的良好数据集。交叉验证是一种技术,我们使用数据集的子集训练模型,然后使用互补子集进行评估。保留部分样本数据集。使用剩余的数据集训练模型。原创 2024-04-05 17:14:39 · 693 阅读 · 1 评论 -
Scikit Learn中的概率校准曲线
概率校准是一种用于将二分类的输出分数转换为概率的技术,以与目标类的实际概率相关联。在本文中,我们将讨论概率校准曲线以及如何使用Scikit-learn绘制它们。原创 2024-03-27 18:43:29 · 783 阅读 · 0 评论 -
机器学习 | 期望最大化(EM)算法介绍和实现
在现实世界的机器学习应用中,通常有许多相关的特征,但只有其中的一个子集是可观察的。当处理有时可观察而有时不可观察的变量时,确实可以利用该变量可见或可观察的实例,以便学习和预测不可观察的实例。这种方法通常被称为处理缺失数据。通过使用变量可观察的可用实例,机器学习算法可以从观察到的数据中学习模式和关系。然后,这些学习到的模式可以用于预测变量在缺失或不可观察的情况下的值。期望最大化算法可用于处理变量部分可观察的情况。当某些变量是可观察的时,我们可以使用这些实例来学习和估计它们的值。原创 2024-03-24 17:03:51 · 1356 阅读 · 0 评论 -
Python | 机器学习中的模型验证曲线
验证曲线是一种重要的诊断工具,它显示了机器学习模型准确性变化与模型超参数变化之间的敏感性。验证曲线在y轴上绘制模型性能指标(如准确度、F1分数或均方误差),在x轴上绘制超参数值的范围。模型的超参数值通常在对数尺度上变化,并且使用针对每个超参数值的交叉验证技术来训练和评估模型。验证曲线中存在两条曲线-一条用于训练集得分,一条用于交叉验证得分。默认情况下,scikit-learn库中的验证曲线函数执行3折交叉验证。验证曲线用于基于超参数评估现有模型,而不是用于调整模型。原创 2024-03-16 16:02:13 · 467 阅读 · 0 评论 -
机器学习中的概率模型及使用案例
概率模型是机器学习的重要组成部分,其目的是从数据中学习模式,并对新的、看不见的数据进行预测。它们是统计模型,捕捉数据中固有的不确定性,并将其纳入预测。概率模型用于各种应用,例如图像和语音识别、自然语言处理和推荐系统。近年来,在开发能够有效处理大型数据集的概率模型方面取得了重大进展。原创 2024-03-11 18:33:17 · 1404 阅读 · 0 评论 -
机器学习 | 使用CatBoost处理缺失值
CatBoost(categorical boosting)是由俄罗斯跨国IT公司Yandex开发的机器学习算法。这种特殊的boosting算法基于梯度提升框架,通过结合有序提升,不经意树和分类变量的高级处理等技术,可以比其他传统的梯度提升算法更有效地处理分类特征,从而以最小的超参数调整实现高性能。CatBoost还有一个内置的超参数(nan_mode)来处理数据集中存在的缺失值,这有助于我们非常有效地处理数据集,而无需执行其他数据预处理。缺失值是指数据集中某些观测或变量的数据缺失。原创 2024-03-08 01:09:07 · 1131 阅读 · 0 评论 -
机器学习中的特征变换技术
在每个数据集中,不能使用对数和平方根变换,因为每个数据都可能具有不同的模式和复杂性。根据数据的领域知识,可以应用自定义变换将数据变换为正态分布。这里的自定义变换可以是任何函数或参数,如sin、cos、tan、cube等。原创 2024-03-05 18:37:01 · 948 阅读 · 0 评论 -
回归分析中的异方差性
在简单线性回归或多元线性回归中,我们对误差项做了一些基本假设。简单线性回归:多元线性回归:假设条件:1.误差均值为零2.误差具有恒定方差3.误差不相关4.误差呈正态分布第2个假设称为同方差性,因此,违反这个假设称为异方差性。原创 2024-02-21 22:56:59 · 586 阅读 · 0 评论 -
基于LightGBM的回归任务案例
LightGBM或“Light Gradient Boosting Machine”是一个开源的高性能梯度增强框架,专为高效和可扩展的机器学习任务而设计。它专门针对速度和准确性而定制,使其成为不同领域中结构化和非结构化数据的热门选择。LightGBM的关键特性包括它能够处理具有数百万行和列的大型数据集,支持并行和分布式计算,以及优化的梯度提升算法。LightGBM以其出色的速度和低内存消耗而闻名,这要归功于基于直方图的技术和逐叶树生长。原创 2024-02-08 14:45:00 · 2262 阅读 · 1 评论 -
机器学习 | 基于网格搜索的SVM超参数调节
机器学习模型被定义为一个数学模型,其中包含许多需要从数据中学习的参数。然而,有一些参数,称为超参数,这些参数不能直接学习。它们通常是由人类在实际训练开始前根据直觉或经验和试验选择的。这些参数通过提高模型的性能(例如其复杂性或学习率)来展示其重要性。模型可以有许多超参数,找到参数的最佳组合可以被视为搜索问题。SVM也有一些超参数(如使用什么C或伽马值),找到最佳超参数是一个非常困难的任务。但它可以通过尝试所有组合来找到,看看什么参数最有效。原创 2024-02-05 19:16:31 · 1930 阅读 · 0 评论 -
时间序列数据的季节性检测
时间序列数据是在连续的、等间隔的时间间隔内记录的观测或测量的集合,在金融、经济、气候科学和医疗保健等各个领域都很普遍。与在单个时间点捕获观察结果的横截面数据不同,时间序列数据提供了对特定现象如何随时间演变的见解,其中每个数据点与特定时间戳相关联,形成了允许分析时间趋势和模式的序列。季节性是指在时间序列内以固定间隔发生的重复和可预测的模式。这些模式通常遵循周期性或周期性的性质,并可能受到天气,假期或商业周期等各种因素的影响。在时间序列分析的背景下,季节性表现为在固定时间间隔(如天,月或年)内重复的周期性波动。原创 2024-01-14 17:40:47 · 1929 阅读 · 0 评论 -
机器学习中的隐马尔可夫模型及Python实现示例
总之,HMM是一个强大的工具,用于建模连续数据,其实现通过库,如hmmlearn,使他们的访问和有用的各种应用程序。原创 2024-01-10 18:36:06 · 2098 阅读 · 0 评论 -
数据挖掘中的分箱和python实现
数据分箱(英语:Data binning)是一种数据预处理方法,用于最大限度地减少小观测误差的影响。原始数据值被划分为称为bin的小区间,然后用为该bin计算的一般值替换它们。这对输入数据具有平滑效果,并且在小数据集的情况下还可以减少过拟合的机会。原创 2024-01-01 19:15:27 · 592 阅读 · 0 评论 -
机器学习中的偏差和方差
偏差被称为机器学习模型的预测值与正确值之间的差异。偏差高会在训练和测试数据中产生很大的误差。它建议算法应该总是低偏差的,以避免欠拟合的问题。偏差是由于机器学习过程中的错误假设而发生的系统性错误。当假设在本质上过于简单或线性时,就会发生这种情况。请参阅下面的图表,以了解这种情况的示例。在这样一个问题中,假设看起来如下使用更复杂的模型:高偏差的主要原因之一是非常简化的模型。它将无法捕捉数据的复杂性。在这种情况下,我们可以通过增加深度神经网络的隐藏层数量来使我们的模式更加复杂。原创 2023-12-29 19:28:20 · 977 阅读 · 0 评论 -
CatBoost算法是如何工作的及使用示例
CatBoost是Yandex开发的尖端算法,是无缝,高效和令人兴奋的机器学习,分类和回归任务的首选解决方案。凭借其创新的有序提升算法,CatBoost通过利用决策树的力量将预测提升到新的高度。在本文中,您将探索catboost算法的工作原理。总而言之,CatBoost是一个功能强大且用户友好的梯度增强库,适用于广泛的应用。无论您是寻找简单机器学习方法的新手,还是寻找顶级性能的经验丰富的从业者,CatBoost都是您工具箱中的有用工具。原创 2023-12-27 18:49:09 · 1814 阅读 · 0 评论 -
机器学习 | 回归模型性能评估
回归度量是用于评估回归模型性能的定量度量。它们提供有关回归模型拟合数据的程度以及预测结果变量的准确性的信息。原创 2023-12-20 18:24:34 · 936 阅读 · 0 评论 -
使用Numpy和Scipy的四分位距和四分位偏差
第一四分位数(Q1)定义为数据集的最小值和中位数之间的中间数,第二四分位数(Q2)-给定数据集的中位数,而第三四分位数(Q3)是数据集的中位数和最大值之间的中间数。四分位距(IQR),也称为中间分布或中间50%,或技术上的H分布是第三四分位数(Q3)和第一四分位数(Q1)之间的差异。如果条目的数量是偶数,即形式为2n,则第一四分位数(Q1)等于n个最小条目的中值,第三四分位数(Q3)等于n个最大条目的中值。四分位偏差是第三四分位数(Q3)和第一四分位数(Q1)之差的一半,即四分位数间距(IQR)的一半。原创 2023-12-14 16:48:28 · 853 阅读 · 0 评论 -
LightGBM特征重要性和可视化
LightGBM是Light Gradient Boosting Machine的缩写,是一个高性能、分布式、高效的梯度提升框架,专注于基于树的学习算法。它由Microsoft开发,广泛用于分类和回归任务。LightGBM被设计为内存高效和高度优化,使其成为机器学习从业者的热门选择。原创 2023-12-09 16:59:14 · 2985 阅读 · 0 评论 -
机器学习 | RMSE和R平方误差的数学解释
RMSE:均方根误差是回归线拟合数据点的程度的度量。RMSE也可以解释为残差中的标准差。考虑给定的数据点:(1,1),(2,2),(2,3),(3,6)。让我们把上面的数据点分解成一维列表。原创 2023-12-06 18:37:13 · 650 阅读 · 0 评论 -
使用肘部法则选择KMeans聚类中的k值
任何无监督算法的基本步骤是确定数据可以被聚类到的聚类的最佳数量。因为我们在无监督学习中没有任何预定义数量的聚类。我们倾向于使用一些可以帮助我们决定最佳聚类数的方法。在K-Means聚类的情况下,我们使用肘部法则来定义最佳的聚类数。什么是K-Means聚类中肘部法则?如我们所知,在k-means聚类算法中,我们随机初始化k个聚类,并且我们迭代地调整这k个聚类,直到这些k-质心处于平衡状态。然而,在初始化这些集群之前,我们要做的主要事情是确定我们必须使用多少个集群。原创 2023-12-05 17:19:18 · 6544 阅读 · 0 评论