python收藏家-CSDN博客

原创机器学习 | 随机梯度下降（SGD）和Python实现

梯度下降是一个迭代优化过程，搜索目标函数的最优值（最小值/最大值）。它是改变模型参数以降低机器学习项目中的成本函数的最常用方法之一。梯度下降的主要目标是识别在训练和测试数据集上提供最大准确度的模型参数。在梯度下降中，梯度是指向函数在特定点处最陡上升的一般方向的向量。该算法可以通过在梯度的相反方向上移动而朝向函数的较低值逐渐下降，直到达到函数的最小值。

2024-05-21 22:51:01 730 1

原创 Python | Pandas绘制自相关图及示例

Pandas可用于在图形上绘制自相关图。可以使用绘图模块的autocorrelation_plot（）方法在图形上绘制自相关图。此函数生成时间序列的自相关图。

2024-05-17 22:54:25 177

原创 Python | 为列表中的元素分配唯一值

我们可以给列表中的所有数字分配一个唯一的值，重复时它会保留给它的值。这是一个非常常见的问题，在Web开发中，处理物品id时会遇到。让我们讨论一下解决这个问题的一些方法。

2024-05-12 21:29:58 169

原创机器学习 | 时间序列预测中的AR模型及应用

自回归（AR）模型为分析和预测时间序列数据提供了一个强大的框架。我们探讨了AR模型的基本概念，从理解自相关到拟合模型和进行未来预测。通过生成模拟温度数据集，我们能够应用AR建模。AR模型在处理平稳时间序列数据时特别有用，因为过去的值会影响未来的观测结果。滞后阶数的选择是关键的一步，可以通过检查自相关函数（ACF）图来确定。

2024-05-08 19:04:02 702

步骤1：创建一个自定义函数来评估准确性创建一个接受两个参数的Python函数：模型的预测值和基础事实（实际值）。函数应返回一个用于评估预期值准确性的分数。决定系数（R²）是一种统计度量，代表统计模型预测结果的程度。它测量预测输出中由回归模型中的独立输入变量解释的方差比例。RSS =误差平方和，也称为残差平方和（RSS），用于测量回归模型无法解释的变异。它是预测值和实际目标值之间的平方差之和。TSS =总平方和（TSS）表示因变量的总变异。它是因变量的实际值与平均值之间的平方差之和。

2024-05-03 17:04:56 605

原创机器学习中的CatBoost算法

CatBoost或Categorical Boosting是由Yandex开发的开源boosting库。它被设计用于具有大量独立特征的回归和分类等问题。Catboost是梯度提升的一种变体，可以处理分类和数值特征。它不需要任何特征编码技术，如One-Hot Encoder或Label Encoder将分类特征转换为数值特征。它还使用了一种称为对称加权分位数草图（SWQS）的算法，该算法自动处理数据集中的缺失值，以减少过拟合并提高数据集的整体性能。

2024-04-28 17:29:33 753

原创机器学习 | 使用Python开发多输出回归模型

多输出回归或多目标回归处理需要预测多个连续目标变量的问题，这只是传统回归的扩展，我们专注于预测单目标。在多输出回归中，每个目标变量都被视为一个单独的回归问题，目标是创建一个模型，可以同时为所有目标变量生成准确的预测。多目标变量：在多输出回归中，我们使用特殊的数据集，其中有两个或多个目标变量我们想要预测。这些目标可以是相关的，也可以是独立的，它们可能代表我们试图解决的问题的不同方面或层面。评估指标：在多输出回归中，我们使用了回归任务常见的性能指标，如MSE，MAE，MAPE，R2-score等。

2024-04-24 19:03:58 1130 3

原创如何在Matplotlib中绘制平滑曲线

我们使用给定的数据点来估计样条曲线的系数，然后使用这些系数来确定非常接近的x值的y值，以使曲线看起来平滑。为了绘制一条平滑的曲线，我们首先将一条样条曲线拟合到曲线上，并使用该曲线来找到x值的y值，x值被一个无限小的间隙隔开。我们可以通过用一个非常小的间隙画出这些点来得到一条光滑的曲线。默认情况下，matplotlib.pyplot.plot()函数通过用直线连接数据中的两个相邻点来生成曲线，因此matplotlib.pyplot.plot()函数不会为小范围的数据点生成平滑曲线。

2024-04-21 18:17:35 506

原创机器学习 | Scikit Learn中的特征聚集

数据科学是一个广泛的领域，数据科学家通常面临着许多障碍，以便从呈现给他们的数据中获得信息性见解，其中一个障碍被称为“洞察力的诅咒”。随着数据集中数据特征数量的增加，数据集建模的复杂性呈指数级增加，并且捕获数据中有意义的模式变得更加困难。在本文中，我们将深入研究特征聚集过程，这是一种特征约简方法，有助于以更好的方式实现数据。

2024-04-18 18:24:46 971

原创机器学习 | 使用Scikit-Learn实现分层抽样

分层抽样是一种抽样方法，首先将总体的单位按某种特征分为若干次级总体（层），然后再从每一层内进行单纯随机抽样，组成一个样本。可以提高总体指标估计值的精确度。在抽样时，将总体分成互不交叉的层，然后按一定的比例，从各层次独立地抽取一定数量的个体，将各层次取出的个体合在一起作为样本，这种抽样方法是一种分层抽样。分层抽样的特点是将科学分组法与抽样法结合在一起，分组减小了各抽样层变异性的影响，抽样保证了所抽取的样本具有足够的代表性。

2024-04-14 19:11:17 1014

原创如何在Python中进行指数和对数曲线拟合？

在本文中，我们将学习如何在Python中进行指数和对数曲线拟合。首先我们要问的问题是什么是曲线拟合？曲线拟合是构造曲线或数学函数的过程，其具有对一系列数据点的最佳拟合，可能受到约束。让我们考虑两个方程y = alog(x) + b 其中a、b是该对数方程的系数。我们将在上面的方程上拟合两条曲线，并找到最佳拟合曲线。对于Python中的曲线拟合，我们将使用一些库函数。我们还将使用numpy.polyfit()方法来拟合曲线。这个函数有三个参数x，y，多项式次数（n）返回n次多项式的系数。

2024-04-11 22:29:34 620

原创在Matplotlib中动态更新绘图的3种方法

至少有3种方法可以在matplotlib中完成动态更新绘图的任务。首先使用matplotlib.animations的FuncAnimation函数，其中定义了更新函数，该函数在每帧更新数据和图形，其次使用matplotlib交互模式，该模式通过创建更新数据的更新循环来利用图像在交互模式中即时更新的事实，并在每个周期更新图形，最后使用“figure.canvas.draw()”方法在每次更新后强制当前轴的更新后重新绘制图形。

2024-04-08 17:26:03 758

原创机器学习 | 基于Scikit-learn中手写数字集的交叉验证

手写数字集的交叉验证将允许我们选择最佳参数，避免过度拟合训练数据集。它是一个试验的尝试程序，检查的交叉验证得分的每个参数，然后经过评估，选择最佳的程序。它也适用于商业工作流。Scikit Learn中的Digits Dataset包含UCI ML手写数字数据集的副本。它是一个非常适合初学者的分类数据集，也是学习包括CNN在内的各种机器学习算法的良好数据集。交叉验证是一种技术，我们使用数据集的子集训练模型，然后使用互补子集进行评估。保留部分样本数据集。使用剩余的数据集训练模型。

2024-04-05 17:14:39 654 1

原创使用Python绘制发散条形图案例

发散条形图用于简化多个组的比较。它的设计允许我们比较各组中的数值。它还帮助我们快速地想象出有利的和不利的或积极的和消极的反应。条形图由从中间开始的两个水平条的组合组成-一个条从右向左延伸，另一个从左向右延伸。条形的长度与它所代表的数值相对应。通常，两个分叉的条形用不同的颜色表示。左边的值通常但不一定是负面或不满意的反应。Python没有特定的函数来绘制发散条形图。另一种方法是使用hlines函数绘制具有一定线宽值的水平线，将其表示为水平条。

2024-04-02 18:54:16 305

原创 Python | 单变量时间序列分析与预测

单变量预测通常用于您想要预测单个变量的值时，特别是当该变量存在可用的历史数据点时。它是经济、金融、天气预报和供应链管理中的需求预测等领域的基础和广泛应用的技术。对于多个变量或外部因素可能产生影响的更复杂的预测任务，使用多变量预测技术。这些模型考虑到多个变量及其相互作用进行预测。单变量预测的重要概念趋势：时间序列的长期运动或方向由其趋势表示。它显示数据中的基本模式，例如值随时间的推移而上升或下降。确定和模拟趋势对于理解变量的总体轨迹和做出精确的预测至关重要。

2024-03-30 16:22:25 1129

原创 Scikit Learn中的概率校准曲线

概率校准是一种用于将二分类的输出分数转换为概率的技术，以与目标类的实际概率相关联。在本文中，我们将讨论概率校准曲线以及如何使用Scikit-learn绘制它们。

2024-03-27 18:43:29 648

原创机器学习 | 期望最大化（EM）算法介绍和实现

在现实世界的机器学习应用中，通常有许多相关的特征，但只有其中的一个子集是可观察的。当处理有时可观察而有时不可观察的变量时，确实可以利用该变量可见或可观察的实例，以便学习和预测不可观察的实例。这种方法通常被称为处理缺失数据。通过使用变量可观察的可用实例，机器学习算法可以从观察到的数据中学习模式和关系。然后，这些学习到的模式可以用于预测变量在缺失或不可观察的情况下的值。期望最大化算法可用于处理变量部分可观察的情况。当某些变量是可观察的时，我们可以使用这些实例来学习和估计它们的值。

2024-03-24 17:03:51 1236

原创 Python | 使用SciPy库的插值方法及示例

SciPy是一个基于NumPy构建的Python模块，它集成了多种数学算法和函数，旨在有效地在NumPy数组上运行。SciPy提供了许多子模块，包括插值、积分、优化、图像处理、统计、特殊函数等，广泛适用于各个领域。SciPy的子包被组织成覆盖不同科学计算领域的子包，例如线性代数、常微分方程数值求解、信号处理、图像处理、稀疏矩阵等。SciPy与NumPy关系密切，建立在NumPy之上，提供了便捷且快速的N维数组操作。

2024-03-21 17:41:45 1354

原创在Python中执行分位数回归

线性回归被定义为根据给定的变量集构建因变量和自变量之间关系的统计方法。在执行线性回归时，我们对计算响应变量的平均值感到好奇。相反，我们可以使用称为分位数回归的机制来计算或估计响应值的分位数（百分位数）值。例如，第30百分位、第50百分位等。

2024-03-18 17:52:57 506

原创 Python | 机器学习中的模型验证曲线

验证曲线是一种重要的诊断工具，它显示了机器学习模型准确性变化与模型超参数变化之间的敏感性。验证曲线在y轴上绘制模型性能指标（如准确度、F1分数或均方误差），在x轴上绘制超参数值的范围。模型的超参数值通常在对数尺度上变化，并且使用针对每个超参数值的交叉验证技术来训练和评估模型。验证曲线中存在两条曲线-一条用于训练集得分，一条用于交叉验证得分。默认情况下，scikit-learn库中的验证曲线函数执行3折交叉验证。验证曲线用于基于超参数评估现有模型，而不是用于调整模型。

2024-03-16 16:02:13 395

原创 Python | Bootstrap图介绍

在进入Bootstrap 图之前，让我们先了解一下Bootstrap（或Bootstrap 抽样）是什么。（Bootstrap Sampling）：这是一种方法，我们从一个数据集中重复地取一个样本数据来估计一个总体参数。它用于确定总体的各种参数。

2024-03-14 18:21:19 841

原创机器学习中的概率模型及使用案例

概率模型是机器学习的重要组成部分，其目的是从数据中学习模式，并对新的、看不见的数据进行预测。它们是统计模型，捕捉数据中固有的不确定性，并将其纳入预测。概率模型用于各种应用，例如图像和语音识别、自然语言处理和推荐系统。近年来，在开发能够有效处理大型数据集的概率模型方面取得了重大进展。

2024-03-11 18:33:17 1032

原创机器学习 | 使用CatBoost处理缺失值

CatBoost（categorical boosting）是由俄罗斯跨国IT公司Yandex开发的机器学习算法。这种特殊的boosting算法基于梯度提升框架，通过结合有序提升，不经意树和分类变量的高级处理等技术，可以比其他传统的梯度提升算法更有效地处理分类特征，从而以最小的超参数调整实现高性能。CatBoost还有一个内置的超参数（nan_mode）来处理数据集中存在的缺失值，这有助于我们非常有效地处理数据集，而无需执行其他数据预处理。缺失值是指数据集中某些观测或变量的数据缺失。

2024-03-08 01:09:07 950

原创机器学习中的特征变换技术

在每个数据集中，不能使用对数和平方根变换，因为每个数据都可能具有不同的模式和复杂性。根据数据的领域知识，可以应用自定义变换将数据变换为正态分布。这里的自定义变换可以是任何函数或参数，如sin、cos、tan、cube等。

2024-03-05 18:37:01 881

原创使用Matplotlib绘制圆环图

将图例添加到圆环图图表图例通常以方框的形式出现在图表的右侧或左侧。它包含图表上每种颜色的小样本以及图表中每种颜色含义的简短描述。要添加图例，我们只需编写以下代码。这里plt.legend（）有两个参数，第一个是labels，loc用来设置图例框的位置。# colorsplt.show()在圆环图的图例框中添加标题'Orange']# colors'#FFA500']plt.show()

2024-03-03 19:29:08 596

原创如何用Python检查时间序列数据是否平稳？

时间序列数据通常以其时间性质为特征。这种时间性质为数据增加了趋势或季节性，使其与时间序列分析和预测兼容。如果时间序列数据不随时间变化或没有时间结构，则称其为静态数据。因此，检查数据是否平稳是非常必要的。在时间序列预测中，如果数据是平稳的，我们就无法从数据中获得有价值的见解。

2024-03-01 18:09:11 1119

原创 Python中的时序分析和可视化案例

时间序列数据是按连续时间顺序列出的一系列数据点，或者我们可以说时间序列数据是时间上连续等间隔点的序列。时间序列分析包括分析时间序列数据的方法，以提取有意义的见解和数据的其他有价值的特征。时间序列数据是按连续时间顺序列出的一系列数据点，或者我们可以说时间序列数据是时间上连续等间隔点的序列。时间序列分析包括分析时间序列数据的方法，以提取有意义的见解和数据的其他有价值的特征。

2024-02-27 19:24:36 936

原创如何在Python中创建动态图形？

动态图形是使可视化更具吸引力和用户吸引力的好方法。它帮助我们以有意义的方式展示数据可视化。Python帮助我们使用现有强大的Python库创建动态图形可视化。Matplotlib是一个非常流行的数据可视化库，通常用于数据的图形表示，也用于使用内置函数的动态图形。

2024-02-24 19:34:04 516

原创回归分析中的异方差性

在简单线性回归或多元线性回归中，我们对误差项做了一些基本假设。简单线性回归：多元线性回归：假设条件：1.误差均值为零2.误差具有恒定方差3.误差不相关4.误差呈正态分布第2个假设称为同方差性，因此，违反这个假设称为异方差性。

2024-02-21 22:56:59 473

原创基于Seaborn和Matplotlib的可视化案例分析

处理数据有时会有点无聊。将原始数据转换为可理解的格式是整个过程中最重要的部分之一，那么为什么只停留在数字上，当我们可以将数据可视化为令人兴奋的图表时，这些图表可以在python中获取。这篇文章将重点探索耐人寻味的预处理之旅。Seaborn和Matplotlib为我们提供了许多诱人的图表，通过这些图表，人们可以轻松地分析关键点，更深入地了解数据，并最终获得对数据的深刻见解，并在通过不同算法训练后获得最高的准确性。

2024-02-11 20:16:10 962

原创基于LightGBM的回归任务案例

LightGBM或“Light Gradient Boosting Machine”是一个开源的高性能梯度增强框架，专为高效和可扩展的机器学习任务而设计。它专门针对速度和准确性而定制，使其成为不同领域中结构化和非结构化数据的热门选择。LightGBM的关键特性包括它能够处理具有数百万行和列的大型数据集，支持并行和分布式计算，以及优化的梯度提升算法。LightGBM以其出色的速度和低内存消耗而闻名，这要归功于基于直方图的技术和逐叶树生长。

2024-02-08 14:45:00 1637 1

原创机器学习 | 基于网格搜索的SVM超参数调节

机器学习模型被定义为一个数学模型，其中包含许多需要从数据中学习的参数。然而，有一些参数，称为超参数，这些参数不能直接学习。它们通常是由人类在实际训练开始前根据直觉或经验和试验选择的。这些参数通过提高模型的性能（例如其复杂性或学习率）来展示其重要性。模型可以有许多超参数，找到参数的最佳组合可以被视为搜索问题。SVM也有一些超参数（如使用什么C或伽马值），找到最佳超参数是一个非常困难的任务。但它可以通过尝试所有组合来找到，看看什么参数最有效。

2024-02-05 19:16:31 1653

原创 Pandas - Groupby对多个值分组并绘图示例

在这个例子中，我们从seaborn库中获取一个数据集的“exercise.csv”文件，然后根据“time”列将“pulse”和“diet”两列分组在一起，形成groupby数据，最后可视化结果。在这个例子中，我们从seaborn库中获取数据集的“exercise.csv”文件，然后通过将“pulse”，“diet”和“time”三列分组在一起形成groupby数据，最后将结果可视化。本示例是对上述示例的修改，以实现更好的可视化。本示例是对上述示例的修改，以实现更好的可视化。

2024-02-03 19:37:43 474

原创如何在Python中绘制置信区间？

置信区间是从观测数据的统计量计算的一种估计值，它给出了一个可能包含具有特定置信水平的总体参数的值范围。平均值的置信区间是总体平均值可能位于其间的值的范围。如果我预测明天的天气在零下100度到+100度之间，我可以100%肯定这是正确的。然而，如果我预测温度在20.4到20.5摄氏度之间，我就不那么有信心了。注意置信度如何随着区间的减小而减小。这同样适用于统计置信区间，但它们也依赖于其他因素。

2024-01-31 18:07:17 1269

原创将Lambda函数应用于Pandas DataFrame

在Python Pandas中，我们可以在需要时自由添加不同的函数，如lambda函数，排序函数等。我们可以将lambda函数应用于Pandas数据框的列和行。语法：lambda参数：表达式一个匿名函数，我们可以立即传入，而无需定义名称或任何东西，就像一个完整的传统函数一样。

2024-01-28 19:04:51 521

原创如何将嵌套JSON数据转换为Pandas DataFrame

对于复杂的JSON数据进行分析时，通常的做法是将JSON数据结构转换为Pandas DataFrame，因为它可以帮助更方便地操作和可视化数据。在本文中，让我们考虑不同的嵌套JSON数据结构，并使用内置和自定义函数将它们扁平化。Pandas有一个很好的内置函数json_normalize()，可以将简单到中等半结构化的嵌套JSON结构扁平化为数据表。

2024-01-25 18:33:46 460

原创使用Python检测并删除离群值

离群值是一个数据项/对象，它明显偏离其余的（所谓的正常）对象。它们可能由测量或执行错误引起。离群点检测的分析被称为离群点挖掘。检测离群值的方法有很多，删除过程与从pandas的数据框中删除数据项相同。

2024-01-23 19:06:50 1376

原创 Pandas中不同类型的join操作

Pandas模块包含各种功能，可以在数据框上执行各种操作，如join，concatenate，delete，add等。在本文中，我们将讨论可以在Pandas数据框上执行的各种类型的join操作。Pandas中有五种类型的Join。为了理解不同类型的连接，我们将首先创建两个DataFrame，即a和b。

2024-01-20 19:38:53 670

原创时间序列数据中的趋势及可视化示例

时间序列数据是在有序的时间段内测量某些变量的数据点序列。它是增长最快的数据库类别，因为它广泛用于各种行业，以了解和预测数据模式。因此，在准备这些时间序列数据进行建模时，检查时间序列组件或模式非常重要。其中之一就是趋势。趋势是数据中的一种模式，它显示了一个系列在很长一段时间内相对较高或较低的值的运动。换句话说，当时间序列中存在增加或减少的斜率时，观察到趋势。趋势通常发生一段时间，然后消失，它不会重复。例如，一首新歌出现，它流行了一段时间，然后就消失了。它很有可能再次成为趋势。

2024-01-18 17:40:08 454

原创如何在Pandas中根据条件替换列中的值？

在使用Pandas的Python中，DataFrame列中的值可以通过使用各种内置函数根据条件进行替换。在本文中，我们将讨论在Pandas中用条件替换数据集列中的值的各种方法。

2024-01-16 19:39:59 945

使用Python进行健康监测和分析的案例研究

基于机器学习进行降雨预测 - 数据集

python图书阅读路径

adult.data.csv

CTG数据集csv文件

美国各州人口数据分析csv

jre-8u211-linux-x64.tar.gz

如何实现sqlserver数据库级别数据定时更新到hdfs？

单台主机存储数据库的数据越来越多，有什么方式可以使用多台主机存储数据并方便管理？