自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(304)
  • 资源 (4)
  • 问答 (2)
  • 收藏
  • 关注

原创 机器学习 | 基于wine数据集的KMeans聚类和PCA降维案例

KMeans聚类:K均值聚类是一种无监督的学习算法,它试图根据数据的相似性对数据进行聚类。无监督学习意味着不需要预测结果,算法只是试图在数据中找到模式。在k均值聚类中,我们指定希望将数据分组到的聚类数。该算法将每个观察随机分配到一个集合,并找到每个集合的质心。然后,该算法通过两个步骤进行迭代:将数据点重新分配到质心最近的聚类。计算每个簇的新质心。重复这两个步骤,直到集群内的变化不能进一步减少。聚类内偏差计算为数据点与其各自聚类质心之间的欧几里得距离之和。

2024-08-23 17:05:48 630

原创 Python | 数据处理中常用的数据分布介绍

正态分布(高斯分布):在正态分布中,大多数数据点聚集在平均值周围,随着在任一方向上远离平均值,数据点会减少。均匀分布:均匀分布显示为平坦的水平线,因为数据范围内的每个值都有相等的出现机会。偏态分布:在右偏分布中,右侧的尾部比左侧长或粗,表明有一些高离群值。相反,在左偏分布中,左尾更长或更粗,意味着一些低离群值。双峰分布:与正态分布中的单个中心峰不同,双峰分布显示两个独立的峰,每个峰代表一组不同的数据点。指数分布:指数分布显示,随着远离零,值的概率迅速下降,这使其适合于对罕见事件进行建模。

2024-08-18 14:05:32 493

原创 基于机器学习的黄金价格预测案例

在这篇文章中,我们将从头开始做一个关于黄金价格预测的项目。要构建任何数据科学项目,我们必须遵循某些步骤,这些步骤不需要以相同的顺序进行。在我们的项目中,我们将按顺序完成这些步骤。

2024-08-15 19:17:12 858

原创 Python | 在Pandas中检测混合数据类型并修复

具有混合类型的Pandas列在分析数据时可能会导致问题,但可以使用本文中的技术找到并解决这些问题。数据科学家和软件开发人员可以通过正确清理和准备数据来保证其分析的准确性和可靠性。

2024-08-12 22:41:58 319

原创 Python中的数据抽象及实现示例

数据抽象是Python OOP中最重要的概念之一,用于向用户隐藏不相关的细节,并显示与用户相关的细节。例如,XXX的读者只知道作者可以在XXX上写一篇文章,当文章发表时,读者可以阅读文章,但读者不知道发表文章的后台过程。一个简单的例子可以是汽车。汽车有加速器、离合器和刹车,我们都知道踩加速器会增加汽车的速度,踩刹车可以让汽车停下来,但我们不知道汽车的内部机制以及这些功能如何工作。

2024-08-09 20:00:25 445

原创 Python | 什么是相关性分析及如何实现

世界上的大多数数据都是由各种因素相互关联的。数据科学涉及理解不同变量之间的关系。这有助于我们了解潜在的模式和联系,可以给我们给予有价值的见解。“相关性分析”是用来了解变量之间关系类型的重要工具。在本文中,我们将学习相关性分析以及如何实现它。

2024-08-06 23:39:29 821

原创 使用Python绘制雷达图的简单示例

雷达图(Radar Chart)也被称为蜘蛛网图、星形图或极坐标图,是一种用于显示多变量数据的图形方法。它以一个中心点为起点,从中心点向外延伸出多条射线,每条射线代表一个特定的变量或指标。每条射线上的点或线段表示该变量在不同维度上的取值或得分。雷达图常用于比较多个变量在不同维度上的表现,以及展示各个变量之间的相对关系。通过观察雷达图的形状和变化,可以直观地了解各个变量的相对重要性、差异程度和趋势。它被广泛应用于数据分析、数据可视化、商业分析等领域。

2024-08-03 22:36:27 931

原创 机器学习 | 基于sklearn中朴素贝叶斯实现分类任务的示例

机器学习是人工智能的一个子领域,它使系统能够在没有明确编程的情况下进行自我学习。机器学习可以用来解决许多真实的世界问题。本文将介绍高斯朴素贝叶斯实现简单分类任务的示例。

2024-07-31 23:38:12 579

原创 Python | 使用NumPy和SciPy进行并行编程代码示例

并行计算是一种计算类型,其中许多计算或进程的执行同时进行。大的问题往往可以分成小的问题,然后可以同时解决。

2024-07-28 19:09:26 137

原创 机器学习 | 计算分类算法的ROC和AUC曲线以随机森林为例

总之,计算随机森林分类器的ROC AUC分数在Python中是一个简单的过程。sklearn.metrics模块提供了计算ROC曲线、ROC AUC评分和PR曲线的函数。ROC曲线和PR曲线是评估二值分类器性能的有用工具,它们可以帮助基于不同评估指标之间的权衡来选择分类器的最佳阈值。PR(precision-recall)曲线是二元分类问题的另一个评估指标。PR曲线是针对不同分类阈值的精确度(y轴)对召回率(x轴)的图。

2024-07-24 19:56:38 1289 1

原创 K-Means聚类简介及示例

K-Means聚类是一种无监督机器学习算法,它将未标记的数据集分组到不同的聚类中。

2024-07-22 19:38:10 842

原创 Python | 使用Bokeh处理分类数据示例

分类数据是一种可以划分为不同类别或组的数据类型。例如,数据集可能有一列的类别为“红色”、“绿色”和“蓝色”。处理分类数据可能具有挑战性,因为它不能以与数字数据相同的方式处理。可视化和分析分类数据的一种方法是使用Bokeh,这是一个强大的Python库,用于创建交互式可视化。在本文中,我们将探讨如何使用Bokeh处理分类数据,并提供一些示例来说明这些概念。

2024-07-19 19:47:47 666

原创 机器学习 | 深入理解激活函数

在人工神经网络中,节点的激活函数定义了该节点或神经元对于给定输入或一组输入的输出。然后,将此输出用作下一个节点的输入,依此类推,直到找到原始问题的所需解决方案。它将结果值映射到所需的范围,例如0到1或-1到1等。这取决于激活函数的选择。例如,使用逻辑激活函数将把真实的数域中的所有输入映射到0到1的范围内。

2024-07-16 18:06:28 971 1

原创 Python | numpy.array中形状(R,1)和(R,)的区别

(R,)是Python中一维数组的形状元组。这个形状元组显示了一维数组中的列数,即,数组中元素的个数由于一维数组只有一行,因此形状元组中不显示行数。示例:在给定的示例中,我们创建了一个由5个元素组成的一维数组。5个元素也可以表示数组有5列。因此,数组的形状输出为(5,)。一维数组只能有一行。因此,形状元组不显示行数。输出数组的形状元组中元素的数量可以告诉我们该数组的维数。就像当形状元组包含一个元素时,它说数组是一维的,我们可以推断当形状元组有2个元素时,数组是二维的。

2024-07-13 14:40:14 288

原创 机器学习 | 对K-Means聚类假设的研究演示及实践示例

我们在Scikit-learn对K-means假设的调查中探索了揭示算法优势和局限性的场景。我们研究了K-means对不正确的聚类大小的敏感性,它在各向异性分布中面临的困难,它在不同的聚类方差中面临的困难,以及使用合成数据集的大小不均匀的聚类问题。我们希望这些假设的这种可视化表示将澄清K-means的适用性,并强调选择特定于数据特征的聚类算法的重要性。

2024-07-11 20:53:37 673

原创 机器学习 | 随机梯度下降分类器

SGD分类器是一种线性分类算法,旨在找到最佳决策边界(超平面),以分离属于特征空间中不同类别的数据点。它通过使用随机梯度下降优化技术迭代地调整模型的参数来最小化成本函数,通常是交叉熵损失。它与其他分类器的区别随机梯度下降:与一些使用封闭形式解决方案或批量梯度下降(在每次迭代中处理整个训练数据集)的分类器不同,SGD分类器使用随机梯度下降。它增量地更新模型的参数,一次处理一个训练样本或以小批量处理。这使得它具有计算效率,非常适合大型数据集。

2024-07-07 18:47:07 708

原创 Python中的双向哈希表(双向字典)

我们知道Python中的数据结构中的字典,它以键:值对的形式保存数据。在本文中,我们将讨论Python中的双向哈希表或双向字典。我们可以说一个双向字典可以表示为键的值。双向字典的一个例子是:一个双向字典可以表示为关键字字典值。也就是说,它可以根据键返回值,也可以根据值返回相应的键。在上面的例子中,可以使用1,2,3来查找常规字典,这将分别返回Apple,Google和Microsoft。然而,在双向字典中,我们可以使用1,2和3以及Apple,Google和Microsoft分别返回1,2,3来查找字典。

2024-07-04 17:08:25 306

原创 Python | 基于支持向量机(SVM)的图像分类案例

本文的目标是创建和训练支持向量机(SVM)模型,以准确地分类猫和狗的图像。使用GridSearchCV确定SVM模型的最佳参数,并测量模型的准确性。

2024-06-30 17:10:06 1508

原创 Python | 使用均值编码(MeanEncoding)处理分类特征

在特征工程中,将分类特征转换为数字特征的任务称为编码。有多种方法来处理分类特征,如OneHotEncoding和LabelEncoding,FrequencyEncoding或通过其计数替换分类特征。同样,我们可以使用均值编码(MeanEncoding)。

2024-06-27 17:50:30 928

原创 Pandas中将列类型从字符串转换为日期时间格式

在上面的例子中,我们将列“Treatment_start”和“Treatment_end”的数据类型从“object”更改为“datetime64[ns]”类型。在上面的示例中,我们将列“Dates”的数据类型从“object”更改为“datetime64[ns]”,格式从“yymmdd”更改为“yyyymmdd”。正如我们在输出中所看到的,“Date”列的格式已更改为datetime格式。正如我们在输出中所看到的,“Date”列的格式已更改为datetime格式。

2024-06-24 17:46:31 974

原创 Python | 在Numpy中使用argsort方法进行排序

argsort() 是 NumPy 库中的一个函数,它的功能是对数组中的元素进行从小到大的排序,并返回相应元素的原始数组下标。这些下标可以用来以排序顺序重新构造原数组或获取排序后数组元素的原始位置。具体来说,当你对一个 NumPy 数组调用 argsort() 函数时,它会返回一个新的数组,这个新数组的元素是原数组元素排序后的索引。例如,如果原数组是 [2, 1, 4, 3],那么 argsort() 会返回 [1, 0, 3, 2],因为 1 是原数组中的最小元素,其索引是 1;

2024-06-21 19:06:40 357

原创 Python | 使用Matplotlib生成子图的示例

Matplotlib的子图提供的灵活性允许在单个图中同时呈现多个图,增强了显示信息的清晰度和一致性。无论是组织折线图、条形图、饼图还是自定义图,理解子图网格、轴对象和“子图”功能的概念都是必不可少的。

2024-06-19 17:17:17 655

原创 Python | 中心极限定理介绍及实现

统计学是数据科学项目的重要组成部分。每当我们想从数据集的样本中对数据集的总体进行任何推断,从数据集中收集信息,或者对数据集的参数进行任何假设时,我们都会使用统计工具。

2024-06-16 20:01:48 908

原创 Scikit Learn中支持单变量特征选择的SVM示例

支持向量机(SVM)是一种强大的机器学习算法,用于分类和回归分析。它是基于找到两个类之间的最佳边界,最大限度地提高它们之间的差距的想法。然而,SVM的挑战在于它需要大量的计算能力,并且对特征的选择很敏感。这可能会使模型更加复杂,更难解释。单变量特征选择是一种用于选择数据集中最重要特征的方法。这种方法背后的思想是评估每个特征与目标变量的关系,并选择具有最强相关性的特征。对每个特征重复此过程,并根据定义的标准(如最高相关性或统计显著性)选择最佳特征。

2024-06-13 20:18:49 941

原创 Python可视化 | 使用matplotlib绘制面积图示例

面积线图,也称为面积图或堆积面积图,是一种数据可视化技术,用于表示随时间或跨类别的数据。它是基本折线图的扩展,当您想要显示整体的组成、沿着单个组件以及它们如何随时间或跨类别变化时,它特别有用。在本文中,我们将探索如何使用matplotlib库在Python中创建面积线图,并解释它们在可视化数据中的重要性。以下是面积线图的关键组成部分和特征。X轴:水平轴代表自变量,通常是时间或类别。它是一种连续或分类量表,为数据点提供背景。Y轴:垂直轴表示因变量,通常是一个数值,用于度量您正在可视化的内容的数量或大小。

2024-06-08 20:17:52 1211

原创 Python | 机器学习中的卡方检验及特征选择

卡方检验是分析分类数据关联性的重要统计方法。它的应用跨越各个领域,帮助研究人员了解因素之间的关系。

2024-06-04 21:48:00 768

原创 Python | 自动探索性数据分析(EDA)库SweetViz

SweetViz是一个开放源代码Python库,主要用于生成精美的高密度可视化文件,启动探索性数据分析(EDA),输出为完全独立的HTML应用程序。探索性数据分析(EDA)是分析和总结数据集主要特征的过程,通常旨在了解数据中的潜在模式,关系和趋势。

2024-06-02 20:31:27 684

原创 Pandas格式化DataFrame的浮点数列

在呈现数据的同时,以所需的格式显示数据也是一个重要而关键的部分。有时,值太大了,我们只想显示其中所需的部分,或者我们可以说以某种所需的格式。让我们看看在Pandas中格式化DataFrame的数值列的不同方法。

2024-05-29 18:31:19 309

原创 可视化 | Seaborn中的矩阵图及示例

Seaborn是python提供的一个很棒的可视化库。它有几种类型的绘图,通过这些绘图,它提供了惊人的可视化能力。其中一些包括计数图,散点图,配对图,回归图,矩阵图等等。本文讨论了Seaborn中的矩阵图。

2024-05-25 19:43:24 536

原创 机器学习 | 随机梯度下降(SGD)和Python实现

梯度下降是一个迭代优化过程,搜索目标函数的最优值(最小值/最大值)。它是改变模型参数以降低机器学习项目中的成本函数的最常用方法之一。梯度下降的主要目标是识别在训练和测试数据集上提供最大准确度的模型参数。在梯度下降中,梯度是指向函数在特定点处最陡上升的一般方向的向量。该算法可以通过在梯度的相反方向上移动而朝向函数的较低值逐渐下降,直到达到函数的最小值。

2024-05-21 22:51:01 1141 1

原创 Python | Pandas绘制自相关图及示例

Pandas可用于在图形上绘制自相关图。可以使用绘图模块的autocorrelation_plot()方法在图形上绘制自相关图。此函数生成时间序列的自相关图。

2024-05-17 22:54:25 335

原创 Python | 为列表中的元素分配唯一值

我们可以给列表中的所有数字分配一个唯一的值,重复时它会保留给它的值。这是一个非常常见的问题,在Web开发中,处理物品id时会遇到。让我们讨论一下解决这个问题的一些方法。

2024-05-12 21:29:58 198

原创 机器学习 | 时间序列预测中的AR模型及应用

自回归(AR)模型为分析和预测时间序列数据提供了一个强大的框架。我们探讨了AR模型的基本概念,从理解自相关到拟合模型和进行未来预测。通过生成模拟温度数据集,我们能够应用AR建模。AR模型在处理平稳时间序列数据时特别有用,因为过去的值会影响未来的观测结果。滞后阶数的选择是关键的一步,可以通过检查自相关函数(ACF)图来确定。

2024-05-08 19:04:02 2355 2

原创 在Scikit-Learn中创建自定义评分器函数

步骤1:创建一个自定义函数来评估准确性创建一个接受两个参数的Python函数:模型的预测值和基础事实(实际值)。函数应返回一个用于评估预期值准确性的分数。决定系数(R²)是一种统计度量,代表统计模型预测结果的程度。它测量预测输出中由回归模型中的独立输入变量解释的方差比例。RSS =误差平方和,也称为残差平方和(RSS),用于测量回归模型无法解释的变异。它是预测值和实际目标值之间的平方差之和。TSS =总平方和(TSS)表示因变量的总变异。它是因变量的实际值与平均值之间的平方差之和。

2024-05-03 17:04:56 710

原创 机器学习中的CatBoost算法

CatBoost或Categorical Boosting是由Yandex开发的开源boosting库。它被设计用于具有大量独立特征的回归和分类等问题。Catboost是梯度提升的一种变体,可以处理分类和数值特征。它不需要任何特征编码技术,如One-Hot Encoder或Label Encoder将分类特征转换为数值特征。它还使用了一种称为对称加权分位数草图(SWQS)的算法,该算法自动处理数据集中的缺失值,以减少过拟合并提高数据集的整体性能。

2024-04-28 17:29:33 839

原创 机器学习 | 使用Python开发多输出回归模型

多输出回归或多目标回归处理需要预测多个连续目标变量的问题,这只是传统回归的扩展,我们专注于预测单目标。在多输出回归中,每个目标变量都被视为一个单独的回归问题,目标是创建一个模型,可以同时为所有目标变量生成准确的预测。多目标变量:在多输出回归中,我们使用特殊的数据集,其中有两个或多个目标变量我们想要预测。这些目标可以是相关的,也可以是独立的,它们可能代表我们试图解决的问题的不同方面或层面。评估指标:在多输出回归中,我们使用了回归任务常见的性能指标,如MSE,MAE,MAPE,R2-score等。

2024-04-24 19:03:58 2429 3

原创 如何在Matplotlib中绘制平滑曲线

我们使用给定的数据点来估计样条曲线的系数,然后使用这些系数来确定非常接近的x值的y值,以使曲线看起来平滑。为了绘制一条平滑的曲线,我们首先将一条样条曲线拟合到曲线上,并使用该曲线来找到x值的y值,x值被一个无限小的间隙隔开。我们可以通过用一个非常小的间隙画出这些点来得到一条光滑的曲线。默认情况下,matplotlib.pyplot.plot()函数通过用直线连接数据中的两个相邻点来生成曲线,因此matplotlib.pyplot.plot()函数不会为小范围的数据点生成平滑曲线。

2024-04-21 18:17:35 964

原创 机器学习 | Scikit Learn中的特征聚集

数据科学是一个广泛的领域,数据科学家通常面临着许多障碍,以便从呈现给他们的数据中获得信息性见解,其中一个障碍被称为“洞察力的诅咒”。随着数据集中数据特征数量的增加,数据集建模的复杂性呈指数级增加,并且捕获数据中有意义的模式变得更加困难。在本文中,我们将深入研究特征聚集过程,这是一种特征约简方法,有助于以更好的方式实现数据。

2024-04-18 18:24:46 1005

原创 机器学习 | 使用Scikit-Learn实现分层抽样

分层抽样是一种抽样方法,首先将总体的单位按某种特征分为若干次级总体(层),然后再从每一层内进行单纯随机抽样,组成一个样本。可以提高总体指标估计值的精确度。在抽样时,将总体分成互不交叉的层,然后按一定的比例,从各层次独立地抽取一定数量的个体,将各层次取出的个体合在一起作为样本,这种抽样方法是一种分层抽样。分层抽样的特点是将科学分组法与抽样法结合在一起,分组减小了各抽样层变异性的影响,抽样保证了所抽取的样本具有足够的代表性。

2024-04-14 19:11:17 1615

原创 如何在Python中进行指数和对数曲线拟合?

在本文中,我们将学习如何在Python中进行指数和对数曲线拟合。首先我们要问的问题是什么是曲线拟合?曲线拟合是构造曲线或数学函数的过程,其具有对一系列数据点的最佳拟合,可能受到约束。让我们考虑两个方程y = alog(x) + b 其中a、b是该对数方程的系数。我们将在上面的方程上拟合两条曲线,并找到最佳拟合曲线。对于Python中的曲线拟合,我们将使用一些库函数。我们还将使用numpy.polyfit()方法来拟合曲线。这个函数有三个参数x,y,多项式次数(n)返回n次多项式的系数。

2024-04-11 22:29:34 1158

使用Python进行健康监测和分析的案例研究

数据集

2024-04-29

基于机器学习进行降雨预测 - 数据集

基于机器学习进行降雨预测 -- 机器学习项目基础篇(13) 数据集 Rainfall.csv

2023-10-25

python图书阅读路径

python图书阅读路径 python学习

2023-02-14

adult.data.csv

1994 Census database

2021-12-02

CTG数据集csv文件

CTG数据集

2021-08-19

美国各州人口数据分析csv

美国各州人口数据分析csv

2021-08-02

jre-8u211-linux-x64.tar.gz

------java的备份文件jre-8u211-linux-x64.tar.gz------

2019-09-10

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除