![](https://img-blog.csdnimg.cn/20201014180756923.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
python
文章平均质量分 75
python收藏家
这个作者很懒,什么都没留下…
展开
-
Python | 使用Bokeh处理分类数据示例
分类数据是一种可以划分为不同类别或组的数据类型。例如,数据集可能有一列的类别为“红色”、“绿色”和“蓝色”。处理分类数据可能具有挑战性,因为它不能以与数字数据相同的方式处理。可视化和分析分类数据的一种方法是使用Bokeh,这是一个强大的Python库,用于创建交互式可视化。在本文中,我们将探讨如何使用Bokeh处理分类数据,并提供一些示例来说明这些概念。原创 2024-07-19 19:47:47 · 650 阅读 · 0 评论 -
Python | numpy.array中形状(R,1)和(R,)的区别
(R,)是Python中一维数组的形状元组。这个形状元组显示了一维数组中的列数,即,数组中元素的个数由于一维数组只有一行,因此形状元组中不显示行数。示例:在给定的示例中,我们创建了一个由5个元素组成的一维数组。5个元素也可以表示数组有5列。因此,数组的形状输出为(5,)。一维数组只能有一行。因此,形状元组不显示行数。输出数组的形状元组中元素的数量可以告诉我们该数组的维数。就像当形状元组包含一个元素时,它说数组是一维的,我们可以推断当形状元组有2个元素时,数组是二维的。原创 2024-07-13 14:40:14 · 271 阅读 · 0 评论 -
Python中的双向哈希表(双向字典)
我们知道Python中的数据结构中的字典,它以键:值对的形式保存数据。在本文中,我们将讨论Python中的双向哈希表或双向字典。我们可以说一个双向字典可以表示为键的值。双向字典的一个例子是:一个双向字典可以表示为关键字字典值。也就是说,它可以根据键返回值,也可以根据值返回相应的键。在上面的例子中,可以使用1,2,3来查找常规字典,这将分别返回Apple,Google和Microsoft。然而,在双向字典中,我们可以使用1,2和3以及Apple,Google和Microsoft分别返回1,2,3来查找字典。原创 2024-07-04 17:08:25 · 281 阅读 · 0 评论 -
Python | 基于支持向量机(SVM)的图像分类案例
本文的目标是创建和训练支持向量机(SVM)模型,以准确地分类猫和狗的图像。使用GridSearchCV确定SVM模型的最佳参数,并测量模型的准确性。原创 2024-06-30 17:10:06 · 1158 阅读 · 0 评论 -
Python | 使用均值编码(MeanEncoding)处理分类特征
在特征工程中,将分类特征转换为数字特征的任务称为编码。有多种方法来处理分类特征,如OneHotEncoding和LabelEncoding,FrequencyEncoding或通过其计数替换分类特征。同样,我们可以使用均值编码(MeanEncoding)。原创 2024-06-27 17:50:30 · 888 阅读 · 0 评论 -
Pandas中将列类型从字符串转换为日期时间格式
在上面的例子中,我们将列“Treatment_start”和“Treatment_end”的数据类型从“object”更改为“datetime64[ns]”类型。在上面的示例中,我们将列“Dates”的数据类型从“object”更改为“datetime64[ns]”,格式从“yymmdd”更改为“yyyymmdd”。正如我们在输出中所看到的,“Date”列的格式已更改为datetime格式。正如我们在输出中所看到的,“Date”列的格式已更改为datetime格式。原创 2024-06-24 17:46:31 · 663 阅读 · 0 评论 -
Python | 在Numpy中使用argsort方法进行排序
argsort() 是 NumPy 库中的一个函数,它的功能是对数组中的元素进行从小到大的排序,并返回相应元素的原始数组下标。这些下标可以用来以排序顺序重新构造原数组或获取排序后数组元素的原始位置。具体来说,当你对一个 NumPy 数组调用 argsort() 函数时,它会返回一个新的数组,这个新数组的元素是原数组元素排序后的索引。例如,如果原数组是 [2, 1, 4, 3],那么 argsort() 会返回 [1, 0, 3, 2],因为 1 是原数组中的最小元素,其索引是 1;原创 2024-06-21 19:06:40 · 313 阅读 · 0 评论 -
Python | 使用Matplotlib生成子图的示例
Matplotlib的子图提供的灵活性允许在单个图中同时呈现多个图,增强了显示信息的清晰度和一致性。无论是组织折线图、条形图、饼图还是自定义图,理解子图网格、轴对象和“子图”功能的概念都是必不可少的。原创 2024-06-19 17:17:17 · 598 阅读 · 0 评论 -
Python | 中心极限定理介绍及实现
统计学是数据科学项目的重要组成部分。每当我们想从数据集的样本中对数据集的总体进行任何推断,从数据集中收集信息,或者对数据集的参数进行任何假设时,我们都会使用统计工具。原创 2024-06-16 20:01:48 · 884 阅读 · 0 评论 -
Python可视化 | 使用matplotlib绘制面积图示例
面积线图,也称为面积图或堆积面积图,是一种数据可视化技术,用于表示随时间或跨类别的数据。它是基本折线图的扩展,当您想要显示整体的组成、沿着单个组件以及它们如何随时间或跨类别变化时,它特别有用。在本文中,我们将探索如何使用matplotlib库在Python中创建面积线图,并解释它们在可视化数据中的重要性。以下是面积线图的关键组成部分和特征。X轴:水平轴代表自变量,通常是时间或类别。它是一种连续或分类量表,为数据点提供背景。Y轴:垂直轴表示因变量,通常是一个数值,用于度量您正在可视化的内容的数量或大小。原创 2024-06-08 20:17:52 · 1059 阅读 · 0 评论 -
Python | 机器学习中的卡方检验及特征选择
卡方检验是分析分类数据关联性的重要统计方法。它的应用跨越各个领域,帮助研究人员了解因素之间的关系。原创 2024-06-04 21:48:00 · 683 阅读 · 0 评论 -
Python | 自动探索性数据分析(EDA)库SweetViz
SweetViz是一个开放源代码Python库,主要用于生成精美的高密度可视化文件,启动探索性数据分析(EDA),输出为完全独立的HTML应用程序。探索性数据分析(EDA)是分析和总结数据集主要特征的过程,通常旨在了解数据中的潜在模式,关系和趋势。原创 2024-06-02 20:31:27 · 637 阅读 · 0 评论 -
Pandas格式化DataFrame的浮点数列
在呈现数据的同时,以所需的格式显示数据也是一个重要而关键的部分。有时,值太大了,我们只想显示其中所需的部分,或者我们可以说以某种所需的格式。让我们看看在Pandas中格式化DataFrame的数值列的不同方法。原创 2024-05-29 18:31:19 · 297 阅读 · 0 评论 -
可视化 | Seaborn中的矩阵图及示例
Seaborn是python提供的一个很棒的可视化库。它有几种类型的绘图,通过这些绘图,它提供了惊人的可视化能力。其中一些包括计数图,散点图,配对图,回归图,矩阵图等等。本文讨论了Seaborn中的矩阵图。原创 2024-05-25 19:43:24 · 506 阅读 · 0 评论 -
机器学习 | 随机梯度下降(SGD)和Python实现
梯度下降是一个迭代优化过程,搜索目标函数的最优值(最小值/最大值)。它是改变模型参数以降低机器学习项目中的成本函数的最常用方法之一。梯度下降的主要目标是识别在训练和测试数据集上提供最大准确度的模型参数。在梯度下降中,梯度是指向函数在特定点处最陡上升的一般方向的向量。该算法可以通过在梯度的相反方向上移动而朝向函数的较低值逐渐下降,直到达到函数的最小值。原创 2024-05-21 22:51:01 · 1055 阅读 · 1 评论 -
Python | Pandas绘制自相关图及示例
Pandas可用于在图形上绘制自相关图。可以使用绘图模块的autocorrelation_plot()方法在图形上绘制自相关图。此函数生成时间序列的自相关图。原创 2024-05-17 22:54:25 · 291 阅读 · 0 评论 -
Python | 为列表中的元素分配唯一值
我们可以给列表中的所有数字分配一个唯一的值,重复时它会保留给它的值。这是一个非常常见的问题,在Web开发中,处理物品id时会遇到。让我们讨论一下解决这个问题的一些方法。原创 2024-05-12 21:29:58 · 188 阅读 · 0 评论 -
机器学习 | 使用Python开发多输出回归模型
多输出回归或多目标回归处理需要预测多个连续目标变量的问题,这只是传统回归的扩展,我们专注于预测单目标。在多输出回归中,每个目标变量都被视为一个单独的回归问题,目标是创建一个模型,可以同时为所有目标变量生成准确的预测。多目标变量:在多输出回归中,我们使用特殊的数据集,其中有两个或多个目标变量我们想要预测。这些目标可以是相关的,也可以是独立的,它们可能代表我们试图解决的问题的不同方面或层面。评估指标:在多输出回归中,我们使用了回归任务常见的性能指标,如MSE,MAE,MAPE,R2-score等。原创 2024-04-24 19:03:58 · 2105 阅读 · 3 评论 -
如何在Matplotlib中绘制平滑曲线
我们使用给定的数据点来估计样条曲线的系数,然后使用这些系数来确定非常接近的x值的y值,以使曲线看起来平滑。为了绘制一条平滑的曲线,我们首先将一条样条曲线拟合到曲线上,并使用该曲线来找到x值的y值,x值被一个无限小的间隙隔开。我们可以通过用一个非常小的间隙画出这些点来得到一条光滑的曲线。默认情况下,matplotlib.pyplot.plot()函数通过用直线连接数据中的两个相邻点来生成曲线,因此matplotlib.pyplot.plot()函数不会为小范围的数据点生成平滑曲线。原创 2024-04-21 18:17:35 · 858 阅读 · 0 评论 -
如何在Python中进行指数和对数曲线拟合?
在本文中,我们将学习如何在Python中进行指数和对数曲线拟合。首先我们要问的问题是什么是曲线拟合?曲线拟合是构造曲线或数学函数的过程,其具有对一系列数据点的最佳拟合,可能受到约束。让我们考虑两个方程y = alog(x) + b 其中a、b是该对数方程的系数。我们将在上面的方程上拟合两条曲线,并找到最佳拟合曲线。对于Python中的曲线拟合,我们将使用一些库函数。我们还将使用numpy.polyfit()方法来拟合曲线。这个函数有三个参数x,y,多项式次数(n)返回n次多项式的系数。原创 2024-04-11 22:29:34 · 1003 阅读 · 0 评论 -
使用Python绘制发散条形图案例
发散条形图用于简化多个组的比较。它的设计允许我们比较各组中的数值。它还帮助我们快速地想象出有利的和不利的或积极的和消极的反应。条形图由从中间开始的两个水平条的组合组成-一个条从右向左延伸,另一个从左向右延伸。条形的长度与它所代表的数值相对应。通常,两个分叉的条形用不同的颜色表示。左边的值通常但不一定是负面或不满意的反应。Python没有特定的函数来绘制发散条形图。另一种方法是使用hlines函数绘制具有一定线宽值的水平线,将其表示为水平条。原创 2024-04-02 18:54:16 · 321 阅读 · 0 评论 -
Python | 单变量时间序列分析与预测
单变量预测通常用于您想要预测单个变量的值时,特别是当该变量存在可用的历史数据点时。它是经济、金融、天气预报和供应链管理中的需求预测等领域的基础和广泛应用的技术。对于多个变量或外部因素可能产生影响的更复杂的预测任务,使用多变量预测技术。这些模型考虑到多个变量及其相互作用进行预测。单变量预测的重要概念趋势:时间序列的长期运动或方向由其趋势表示。它显示数据中的基本模式,例如值随时间的推移而上升或下降。确定和模拟趋势对于理解变量的总体轨迹和做出精确的预测至关重要。原创 2024-03-30 16:22:25 · 1648 阅读 · 0 评论 -
Python | 使用SciPy库的插值方法及示例
SciPy是一个基于NumPy构建的Python模块,它集成了多种数学算法和函数,旨在有效地在NumPy数组上运行。SciPy提供了许多子模块,包括插值、积分、优化、图像处理、统计、特殊函数等,广泛适用于各个领域。SciPy的子包被组织成覆盖不同科学计算领域的子包,例如线性代数、常微分方程数值求解、信号处理、图像处理、稀疏矩阵等。SciPy与NumPy关系密切,建立在NumPy之上,提供了便捷且快速的N维数组操作。原创 2024-03-21 17:41:45 · 3163 阅读 · 0 评论 -
在Python中执行分位数回归
线性回归被定义为根据给定的变量集构建因变量和自变量之间关系的统计方法。在执行线性回归时,我们对计算响应变量的平均值感到好奇。相反,我们可以使用称为分位数回归的机制来计算或估计响应值的分位数(百分位数)值。例如,第30百分位、第50百分位等。原创 2024-03-18 17:52:57 · 586 阅读 · 0 评论 -
Python | 机器学习中的模型验证曲线
验证曲线是一种重要的诊断工具,它显示了机器学习模型准确性变化与模型超参数变化之间的敏感性。验证曲线在y轴上绘制模型性能指标(如准确度、F1分数或均方误差),在x轴上绘制超参数值的范围。模型的超参数值通常在对数尺度上变化,并且使用针对每个超参数值的交叉验证技术来训练和评估模型。验证曲线中存在两条曲线-一条用于训练集得分,一条用于交叉验证得分。默认情况下,scikit-learn库中的验证曲线函数执行3折交叉验证。验证曲线用于基于超参数评估现有模型,而不是用于调整模型。原创 2024-03-16 16:02:13 · 453 阅读 · 0 评论 -
Python | Bootstrap图介绍
在进入Bootstrap 图之前,让我们先了解一下Bootstrap(或Bootstrap 抽样)是什么。(Bootstrap Sampling):这是一种方法,我们从一个数据集中重复地取一个样本数据来估计一个总体参数。它用于确定总体的各种参数。原创 2024-03-14 18:21:19 · 901 阅读 · 0 评论 -
使用Matplotlib绘制圆环图
将图例添加到圆环图图表图例通常以方框的形式出现在图表的右侧或左侧。它包含图表上每种颜色的小样本以及图表中每种颜色含义的简短描述。要添加图例,我们只需编写以下代码。这里plt.legend()有两个参数,第一个是labels,loc用来设置图例框的位置。# colorsplt.show()在圆环图的图例框中添加标题'Orange']# colors'#FFA500']plt.show()原创 2024-03-03 19:29:08 · 705 阅读 · 0 评论 -
如何用Python检查时间序列数据是否平稳?
时间序列数据通常以其时间性质为特征。这种时间性质为数据增加了趋势或季节性,使其与时间序列分析和预测兼容。如果时间序列数据不随时间变化或没有时间结构,则称其为静态数据。因此,检查数据是否平稳是非常必要的。在时间序列预测中,如果数据是平稳的,我们就无法从数据中获得有价值的见解。原创 2024-03-01 18:09:11 · 1332 阅读 · 0 评论 -
Python中的时序分析和可视化案例
时间序列数据是按连续时间顺序列出的一系列数据点,或者我们可以说时间序列数据是时间上连续等间隔点的序列。时间序列分析包括分析时间序列数据的方法,以提取有意义的见解和数据的其他有价值的特征。时间序列数据是按连续时间顺序列出的一系列数据点,或者我们可以说时间序列数据是时间上连续等间隔点的序列。时间序列分析包括分析时间序列数据的方法,以提取有意义的见解和数据的其他有价值的特征。原创 2024-02-27 19:24:36 · 1014 阅读 · 0 评论 -
如何在Python中创建动态图形?
动态图形是使可视化更具吸引力和用户吸引力的好方法。它帮助我们以有意义的方式展示数据可视化。Python帮助我们使用现有强大的Python库创建动态图形可视化。Matplotlib是一个非常流行的数据可视化库,通常用于数据的图形表示,也用于使用内置函数的动态图形。原创 2024-02-24 19:34:04 · 646 阅读 · 0 评论 -
回归分析中的异方差性
在简单线性回归或多元线性回归中,我们对误差项做了一些基本假设。简单线性回归:多元线性回归:假设条件:1.误差均值为零2.误差具有恒定方差3.误差不相关4.误差呈正态分布第2个假设称为同方差性,因此,违反这个假设称为异方差性。原创 2024-02-21 22:56:59 · 571 阅读 · 0 评论 -
基于Seaborn和Matplotlib的可视化案例分析
处理数据有时会有点无聊。将原始数据转换为可理解的格式是整个过程中最重要的部分之一,那么为什么只停留在数字上,当我们可以将数据可视化为令人兴奋的图表时,这些图表可以在python中获取。这篇文章将重点探索耐人寻味的预处理之旅。Seaborn和Matplotlib为我们提供了许多诱人的图表,通过这些图表,人们可以轻松地分析关键点,更深入地了解数据,并最终获得对数据的深刻见解,并在通过不同算法训练后获得最高的准确性。原创 2024-02-11 20:16:10 · 994 阅读 · 0 评论 -
Pandas - Groupby对多个值分组并绘图示例
在这个例子中,我们从seaborn库中获取一个数据集的“exercise.csv”文件,然后根据“time”列将“pulse”和“diet”两列分组在一起,形成groupby数据,最后可视化结果。在这个例子中,我们从seaborn库中获取数据集的“exercise.csv”文件,然后通过将“pulse”,“diet”和“time”三列分组在一起形成groupby数据,最后将结果可视化。本示例是对上述示例的修改,以实现更好的可视化。本示例是对上述示例的修改,以实现更好的可视化。原创 2024-02-03 19:37:43 · 585 阅读 · 0 评论 -
如何在Python中绘制置信区间?
置信区间是从观测数据的统计量计算的一种估计值,它给出了一个可能包含具有特定置信水平的总体参数的值范围。平均值的置信区间是总体平均值可能位于其间的值的范围。如果我预测明天的天气在零下100度到+100度之间,我可以100%肯定这是正确的。然而,如果我预测温度在20.4到20.5摄氏度之间,我就不那么有信心了。注意置信度如何随着区间的减小而减小。这同样适用于统计置信区间,但它们也依赖于其他因素。原创 2024-01-31 18:07:17 · 1414 阅读 · 0 评论 -
将Lambda函数应用于Pandas DataFrame
在Python Pandas中,我们可以在需要时自由添加不同的函数,如lambda函数,排序函数等。我们可以将lambda函数应用于Pandas数据框的列和行。语法:lambda参数:表达式一个匿名函数,我们可以立即传入,而无需定义名称或任何东西,就像一个完整的传统函数一样。原创 2024-01-28 19:04:51 · 722 阅读 · 0 评论 -
如何将嵌套JSON数据转换为Pandas DataFrame
对于复杂的JSON数据进行分析时,通常的做法是将JSON数据结构转换为Pandas DataFrame,因为它可以帮助更方便地操作和可视化数据。在本文中,让我们考虑不同的嵌套JSON数据结构,并使用内置和自定义函数将它们扁平化。Pandas有一个很好的内置函数json_normalize(),可以将简单到中等半结构化的嵌套JSON结构扁平化为数据表。原创 2024-01-25 18:33:46 · 500 阅读 · 0 评论 -
使用Python检测并删除离群值
离群值是一个数据项/对象,它明显偏离其余的(所谓的正常)对象。它们可能由测量或执行错误引起。离群点检测的分析被称为离群点挖掘。检测离群值的方法有很多,删除过程与从pandas的数据框中删除数据项相同。原创 2024-01-23 19:06:50 · 1844 阅读 · 0 评论 -
Pandas中不同类型的join操作
Pandas模块包含各种功能,可以在数据框上执行各种操作,如join,concatenate,delete,add等。在本文中,我们将讨论可以在Pandas数据框上执行的各种类型的join操作。Pandas中有五种类型的Join。为了理解不同类型的连接,我们将首先创建两个DataFrame,即a和b。原创 2024-01-20 19:38:53 · 1008 阅读 · 0 评论 -
时间序列数据中的趋势及可视化示例
时间序列数据是在有序的时间段内测量某些变量的数据点序列。它是增长最快的数据库类别,因为它广泛用于各种行业,以了解和预测数据模式。因此,在准备这些时间序列数据进行建模时,检查时间序列组件或模式非常重要。其中之一就是趋势。趋势是数据中的一种模式,它显示了一个系列在很长一段时间内相对较高或较低的值的运动。换句话说,当时间序列中存在增加或减少的斜率时,观察到趋势。趋势通常发生一段时间,然后消失,它不会重复。例如,一首新歌出现,它流行了一段时间,然后就消失了。它很有可能再次成为趋势。原创 2024-01-18 17:40:08 · 662 阅读 · 0 评论 -
如何在Pandas中根据条件替换列中的值?
在使用Pandas的Python中,DataFrame列中的值可以通过使用各种内置函数根据条件进行替换。在本文中,我们将讨论在Pandas中用条件替换数据集列中的值的各种方法。原创 2024-01-16 19:39:59 · 1610 阅读 · 0 评论