![](https://img-blog.csdnimg.cn/20201014180756923.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
python
文章平均质量分 75
python收藏家
这个作者很懒,什么都没留下…
展开
-
Pandas中将列类型从字符串转换为日期时间格式
在上面的例子中,我们将列“Treatment_start”和“Treatment_end”的数据类型从“object”更改为“datetime64[ns]”类型。在上面的示例中,我们将列“Dates”的数据类型从“object”更改为“datetime64[ns]”,格式从“yymmdd”更改为“yyyymmdd”。正如我们在输出中所看到的,“Date”列的格式已更改为datetime格式。正如我们在输出中所看到的,“Date”列的格式已更改为datetime格式。原创 2024-06-24 17:46:31 · 308 阅读 · 0 评论 -
Python | 在Numpy中使用argsort方法进行排序
argsort() 是 NumPy 库中的一个函数,它的功能是对数组中的元素进行从小到大的排序,并返回相应元素的原始数组下标。这些下标可以用来以排序顺序重新构造原数组或获取排序后数组元素的原始位置。具体来说,当你对一个 NumPy 数组调用 argsort() 函数时,它会返回一个新的数组,这个新数组的元素是原数组元素排序后的索引。例如,如果原数组是 [2, 1, 4, 3],那么 argsort() 会返回 [1, 0, 3, 2],因为 1 是原数组中的最小元素,其索引是 1;原创 2024-06-21 19:06:40 · 267 阅读 · 0 评论 -
Python | 使用Matplotlib生成子图的示例
Matplotlib的子图提供的灵活性允许在单个图中同时呈现多个图,增强了显示信息的清晰度和一致性。无论是组织折线图、条形图、饼图还是自定义图,理解子图网格、轴对象和“子图”功能的概念都是必不可少的。原创 2024-06-19 17:17:17 · 516 阅读 · 0 评论 -
Python | 中心极限定理介绍及实现
统计学是数据科学项目的重要组成部分。每当我们想从数据集的样本中对数据集的总体进行任何推断,从数据集中收集信息,或者对数据集的参数进行任何假设时,我们都会使用统计工具。原创 2024-06-16 20:01:48 · 866 阅读 · 0 评论 -
Python可视化 | 使用matplotlib绘制面积图示例
面积线图,也称为面积图或堆积面积图,是一种数据可视化技术,用于表示随时间或跨类别的数据。它是基本折线图的扩展,当您想要显示整体的组成、沿着单个组件以及它们如何随时间或跨类别变化时,它特别有用。在本文中,我们将探索如何使用matplotlib库在Python中创建面积线图,并解释它们在可视化数据中的重要性。以下是面积线图的关键组成部分和特征。X轴:水平轴代表自变量,通常是时间或类别。它是一种连续或分类量表,为数据点提供背景。Y轴:垂直轴表示因变量,通常是一个数值,用于度量您正在可视化的内容的数量或大小。原创 2024-06-08 20:17:52 · 928 阅读 · 0 评论 -
Python | 机器学习中的卡方检验及特征选择
卡方检验是分析分类数据关联性的重要统计方法。它的应用跨越各个领域,帮助研究人员了解因素之间的关系。原创 2024-06-04 21:48:00 · 648 阅读 · 0 评论 -
Python | 自动探索性数据分析(EDA)库SweetViz
SweetViz是一个开放源代码Python库,主要用于生成精美的高密度可视化文件,启动探索性数据分析(EDA),输出为完全独立的HTML应用程序。探索性数据分析(EDA)是分析和总结数据集主要特征的过程,通常旨在了解数据中的潜在模式,关系和趋势。原创 2024-06-02 20:31:27 · 583 阅读 · 0 评论 -
Pandas格式化DataFrame的浮点数列
在呈现数据的同时,以所需的格式显示数据也是一个重要而关键的部分。有时,值太大了,我们只想显示其中所需的部分,或者我们可以说以某种所需的格式。让我们看看在Pandas中格式化DataFrame的数值列的不同方法。原创 2024-05-29 18:31:19 · 279 阅读 · 0 评论 -
可视化 | Seaborn中的矩阵图及示例
Seaborn是python提供的一个很棒的可视化库。它有几种类型的绘图,通过这些绘图,它提供了惊人的可视化能力。其中一些包括计数图,散点图,配对图,回归图,矩阵图等等。本文讨论了Seaborn中的矩阵图。原创 2024-05-25 19:43:24 · 472 阅读 · 0 评论 -
机器学习 | 随机梯度下降(SGD)和Python实现
梯度下降是一个迭代优化过程,搜索目标函数的最优值(最小值/最大值)。它是改变模型参数以降低机器学习项目中的成本函数的最常用方法之一。梯度下降的主要目标是识别在训练和测试数据集上提供最大准确度的模型参数。在梯度下降中,梯度是指向函数在特定点处最陡上升的一般方向的向量。该算法可以通过在梯度的相反方向上移动而朝向函数的较低值逐渐下降,直到达到函数的最小值。原创 2024-05-21 22:51:01 · 939 阅读 · 1 评论 -
Python | Pandas绘制自相关图及示例
Pandas可用于在图形上绘制自相关图。可以使用绘图模块的autocorrelation_plot()方法在图形上绘制自相关图。此函数生成时间序列的自相关图。原创 2024-05-17 22:54:25 · 251 阅读 · 0 评论 -
Python | 为列表中的元素分配唯一值
我们可以给列表中的所有数字分配一个唯一的值,重复时它会保留给它的值。这是一个非常常见的问题,在Web开发中,处理物品id时会遇到。让我们讨论一下解决这个问题的一些方法。原创 2024-05-12 21:29:58 · 181 阅读 · 0 评论 -
机器学习 | 使用Python开发多输出回归模型
多输出回归或多目标回归处理需要预测多个连续目标变量的问题,这只是传统回归的扩展,我们专注于预测单目标。在多输出回归中,每个目标变量都被视为一个单独的回归问题,目标是创建一个模型,可以同时为所有目标变量生成准确的预测。多目标变量:在多输出回归中,我们使用特殊的数据集,其中有两个或多个目标变量我们想要预测。这些目标可以是相关的,也可以是独立的,它们可能代表我们试图解决的问题的不同方面或层面。评估指标:在多输出回归中,我们使用了回归任务常见的性能指标,如MSE,MAE,MAPE,R2-score等。原创 2024-04-24 19:03:58 · 1690 阅读 · 3 评论 -
如何在Matplotlib中绘制平滑曲线
我们使用给定的数据点来估计样条曲线的系数,然后使用这些系数来确定非常接近的x值的y值,以使曲线看起来平滑。为了绘制一条平滑的曲线,我们首先将一条样条曲线拟合到曲线上,并使用该曲线来找到x值的y值,x值被一个无限小的间隙隔开。我们可以通过用一个非常小的间隙画出这些点来得到一条光滑的曲线。默认情况下,matplotlib.pyplot.plot()函数通过用直线连接数据中的两个相邻点来生成曲线,因此matplotlib.pyplot.plot()函数不会为小范围的数据点生成平滑曲线。原创 2024-04-21 18:17:35 · 701 阅读 · 0 评论 -
如何在Python中进行指数和对数曲线拟合?
在本文中,我们将学习如何在Python中进行指数和对数曲线拟合。首先我们要问的问题是什么是曲线拟合?曲线拟合是构造曲线或数学函数的过程,其具有对一系列数据点的最佳拟合,可能受到约束。让我们考虑两个方程y = alog(x) + b 其中a、b是该对数方程的系数。我们将在上面的方程上拟合两条曲线,并找到最佳拟合曲线。对于Python中的曲线拟合,我们将使用一些库函数。我们还将使用numpy.polyfit()方法来拟合曲线。这个函数有三个参数x,y,多项式次数(n)返回n次多项式的系数。原创 2024-04-11 22:29:34 · 854 阅读 · 0 评论 -
使用Python绘制发散条形图案例
发散条形图用于简化多个组的比较。它的设计允许我们比较各组中的数值。它还帮助我们快速地想象出有利的和不利的或积极的和消极的反应。条形图由从中间开始的两个水平条的组合组成-一个条从右向左延伸,另一个从左向右延伸。条形的长度与它所代表的数值相对应。通常,两个分叉的条形用不同的颜色表示。左边的值通常但不一定是负面或不满意的反应。Python没有特定的函数来绘制发散条形图。另一种方法是使用hlines函数绘制具有一定线宽值的水平线,将其表示为水平条。原创 2024-04-02 18:54:16 · 314 阅读 · 0 评论 -
Python | 单变量时间序列分析与预测
单变量预测通常用于您想要预测单个变量的值时,特别是当该变量存在可用的历史数据点时。它是经济、金融、天气预报和供应链管理中的需求预测等领域的基础和广泛应用的技术。对于多个变量或外部因素可能产生影响的更复杂的预测任务,使用多变量预测技术。这些模型考虑到多个变量及其相互作用进行预测。单变量预测的重要概念趋势:时间序列的长期运动或方向由其趋势表示。它显示数据中的基本模式,例如值随时间的推移而上升或下降。确定和模拟趋势对于理解变量的总体轨迹和做出精确的预测至关重要。原创 2024-03-30 16:22:25 · 1435 阅读 · 0 评论 -
Python | 使用SciPy库的插值方法及示例
SciPy是一个基于NumPy构建的Python模块,它集成了多种数学算法和函数,旨在有效地在NumPy数组上运行。SciPy提供了许多子模块,包括插值、积分、优化、图像处理、统计、特殊函数等,广泛适用于各个领域。SciPy的子包被组织成覆盖不同科学计算领域的子包,例如线性代数、常微分方程数值求解、信号处理、图像处理、稀疏矩阵等。SciPy与NumPy关系密切,建立在NumPy之上,提供了便捷且快速的N维数组操作。原创 2024-03-21 17:41:45 · 2360 阅读 · 0 评论 -
在Python中执行分位数回归
线性回归被定义为根据给定的变量集构建因变量和自变量之间关系的统计方法。在执行线性回归时,我们对计算响应变量的平均值感到好奇。相反,我们可以使用称为分位数回归的机制来计算或估计响应值的分位数(百分位数)值。例如,第30百分位、第50百分位等。原创 2024-03-18 17:52:57 · 550 阅读 · 0 评论 -
Python | 机器学习中的模型验证曲线
验证曲线是一种重要的诊断工具,它显示了机器学习模型准确性变化与模型超参数变化之间的敏感性。验证曲线在y轴上绘制模型性能指标(如准确度、F1分数或均方误差),在x轴上绘制超参数值的范围。模型的超参数值通常在对数尺度上变化,并且使用针对每个超参数值的交叉验证技术来训练和评估模型。验证曲线中存在两条曲线-一条用于训练集得分,一条用于交叉验证得分。默认情况下,scikit-learn库中的验证曲线函数执行3折交叉验证。验证曲线用于基于超参数评估现有模型,而不是用于调整模型。原创 2024-03-16 16:02:13 · 433 阅读 · 0 评论 -
Python | Bootstrap图介绍
在进入Bootstrap 图之前,让我们先了解一下Bootstrap(或Bootstrap 抽样)是什么。(Bootstrap Sampling):这是一种方法,我们从一个数据集中重复地取一个样本数据来估计一个总体参数。它用于确定总体的各种参数。原创 2024-03-14 18:21:19 · 888 阅读 · 0 评论 -
使用Matplotlib绘制圆环图
将图例添加到圆环图图表图例通常以方框的形式出现在图表的右侧或左侧。它包含图表上每种颜色的小样本以及图表中每种颜色含义的简短描述。要添加图例,我们只需编写以下代码。这里plt.legend()有两个参数,第一个是labels,loc用来设置图例框的位置。# colorsplt.show()在圆环图的图例框中添加标题'Orange']# colors'#FFA500']plt.show()原创 2024-03-03 19:29:08 · 659 阅读 · 0 评论 -
如何用Python检查时间序列数据是否平稳?
时间序列数据通常以其时间性质为特征。这种时间性质为数据增加了趋势或季节性,使其与时间序列分析和预测兼容。如果时间序列数据不随时间变化或没有时间结构,则称其为静态数据。因此,检查数据是否平稳是非常必要的。在时间序列预测中,如果数据是平稳的,我们就无法从数据中获得有价值的见解。原创 2024-03-01 18:09:11 · 1250 阅读 · 0 评论 -
Python中的时序分析和可视化案例
时间序列数据是按连续时间顺序列出的一系列数据点,或者我们可以说时间序列数据是时间上连续等间隔点的序列。时间序列分析包括分析时间序列数据的方法,以提取有意义的见解和数据的其他有价值的特征。时间序列数据是按连续时间顺序列出的一系列数据点,或者我们可以说时间序列数据是时间上连续等间隔点的序列。时间序列分析包括分析时间序列数据的方法,以提取有意义的见解和数据的其他有价值的特征。原创 2024-02-27 19:24:36 · 978 阅读 · 0 评论 -
如何在Python中创建动态图形?
动态图形是使可视化更具吸引力和用户吸引力的好方法。它帮助我们以有意义的方式展示数据可视化。Python帮助我们使用现有强大的Python库创建动态图形可视化。Matplotlib是一个非常流行的数据可视化库,通常用于数据的图形表示,也用于使用内置函数的动态图形。原创 2024-02-24 19:34:04 · 610 阅读 · 0 评论 -
回归分析中的异方差性
在简单线性回归或多元线性回归中,我们对误差项做了一些基本假设。简单线性回归:多元线性回归:假设条件:1.误差均值为零2.误差具有恒定方差3.误差不相关4.误差呈正态分布第2个假设称为同方差性,因此,违反这个假设称为异方差性。原创 2024-02-21 22:56:59 · 532 阅读 · 0 评论 -
基于Seaborn和Matplotlib的可视化案例分析
处理数据有时会有点无聊。将原始数据转换为可理解的格式是整个过程中最重要的部分之一,那么为什么只停留在数字上,当我们可以将数据可视化为令人兴奋的图表时,这些图表可以在python中获取。这篇文章将重点探索耐人寻味的预处理之旅。Seaborn和Matplotlib为我们提供了许多诱人的图表,通过这些图表,人们可以轻松地分析关键点,更深入地了解数据,并最终获得对数据的深刻见解,并在通过不同算法训练后获得最高的准确性。原创 2024-02-11 20:16:10 · 973 阅读 · 0 评论 -
Pandas - Groupby对多个值分组并绘图示例
在这个例子中,我们从seaborn库中获取一个数据集的“exercise.csv”文件,然后根据“time”列将“pulse”和“diet”两列分组在一起,形成groupby数据,最后可视化结果。在这个例子中,我们从seaborn库中获取数据集的“exercise.csv”文件,然后通过将“pulse”,“diet”和“time”三列分组在一起形成groupby数据,最后将结果可视化。本示例是对上述示例的修改,以实现更好的可视化。本示例是对上述示例的修改,以实现更好的可视化。原创 2024-02-03 19:37:43 · 536 阅读 · 0 评论 -
如何在Python中绘制置信区间?
置信区间是从观测数据的统计量计算的一种估计值,它给出了一个可能包含具有特定置信水平的总体参数的值范围。平均值的置信区间是总体平均值可能位于其间的值的范围。如果我预测明天的天气在零下100度到+100度之间,我可以100%肯定这是正确的。然而,如果我预测温度在20.4到20.5摄氏度之间,我就不那么有信心了。注意置信度如何随着区间的减小而减小。这同样适用于统计置信区间,但它们也依赖于其他因素。原创 2024-01-31 18:07:17 · 1354 阅读 · 0 评论 -
将Lambda函数应用于Pandas DataFrame
在Python Pandas中,我们可以在需要时自由添加不同的函数,如lambda函数,排序函数等。我们可以将lambda函数应用于Pandas数据框的列和行。语法:lambda参数:表达式一个匿名函数,我们可以立即传入,而无需定义名称或任何东西,就像一个完整的传统函数一样。原创 2024-01-28 19:04:51 · 610 阅读 · 0 评论 -
如何将嵌套JSON数据转换为Pandas DataFrame
对于复杂的JSON数据进行分析时,通常的做法是将JSON数据结构转换为Pandas DataFrame,因为它可以帮助更方便地操作和可视化数据。在本文中,让我们考虑不同的嵌套JSON数据结构,并使用内置和自定义函数将它们扁平化。Pandas有一个很好的内置函数json_normalize(),可以将简单到中等半结构化的嵌套JSON结构扁平化为数据表。原创 2024-01-25 18:33:46 · 493 阅读 · 0 评论 -
使用Python检测并删除离群值
离群值是一个数据项/对象,它明显偏离其余的(所谓的正常)对象。它们可能由测量或执行错误引起。离群点检测的分析被称为离群点挖掘。检测离群值的方法有很多,删除过程与从pandas的数据框中删除数据项相同。原创 2024-01-23 19:06:50 · 1656 阅读 · 0 评论 -
Pandas中不同类型的join操作
Pandas模块包含各种功能,可以在数据框上执行各种操作,如join,concatenate,delete,add等。在本文中,我们将讨论可以在Pandas数据框上执行的各种类型的join操作。Pandas中有五种类型的Join。为了理解不同类型的连接,我们将首先创建两个DataFrame,即a和b。原创 2024-01-20 19:38:53 · 888 阅读 · 0 评论 -
时间序列数据中的趋势及可视化示例
时间序列数据是在有序的时间段内测量某些变量的数据点序列。它是增长最快的数据库类别,因为它广泛用于各种行业,以了解和预测数据模式。因此,在准备这些时间序列数据进行建模时,检查时间序列组件或模式非常重要。其中之一就是趋势。趋势是数据中的一种模式,它显示了一个系列在很长一段时间内相对较高或较低的值的运动。换句话说,当时间序列中存在增加或减少的斜率时,观察到趋势。趋势通常发生一段时间,然后消失,它不会重复。例如,一首新歌出现,它流行了一段时间,然后就消失了。它很有可能再次成为趋势。原创 2024-01-18 17:40:08 · 575 阅读 · 0 评论 -
如何在Pandas中根据条件替换列中的值?
在使用Pandas的Python中,DataFrame列中的值可以通过使用各种内置函数根据条件进行替换。在本文中,我们将讨论在Pandas中用条件替换数据集列中的值的各种方法。原创 2024-01-16 19:39:59 · 1344 阅读 · 0 评论 -
使用Python进行客户行为分析
客户行为分析是一个有价值的过程,它使企业能够做出数据驱动的决策,增强客户体验,并在动态市场中保持竞争力。因此,这个过程从基于平台上的客户行为收集数据开始。原创 2024-01-12 18:34:28 · 441 阅读 · 0 评论 -
Python中的线性可分性
线性可分性是指二分类问题中的数据点可以用线性决策边界分离。如果数据点可以使用线、线性函数或平坦超平面来分离,则认为是线性可分离的。线性可分性是神经网络中的一个重要概念。如果n维空间中的分离点遵循则它被称为线性可分的。对于二维输入,如果存在一条线(其方程为)将一个类别的所有样本与另一个类别分开。这样的分类问题被称为“线性可分离”,即通过i/p的线性组合进行分离。原创 2024-01-08 18:27:17 · 898 阅读 · 0 评论 -
Pandas DataFrame中将True/False映射到1/0
在本文中,我们将看到如何在Pandas DataFrame中将True/False映射到1/0。True/False到1/0的转换在执行计算时至关重要,并且可以轻松分析数据。原创 2024-01-06 17:39:58 · 546 阅读 · 0 评论 -
Python|使用Missingno库可视化缺失值(NaN)
在真实世界数据集的情况下,数据集中的某些值丢失是非常常见的。我们将这些缺失值表示为NaN(非数字)值。但是要构建一个好的机器学习模型,我们的数据集应该是完整的。这就是为什么我们使用一些插补技术来用一些可能的值替换NaN值。但在此之前,我们需要很好地理解NaN值在数据集中的分布情况。Missingno库提供了一种非常好的方式来可视化NaN值的分布。Missingno是一个Python库,与Pandas兼容。原创 2024-01-05 17:56:55 · 542 阅读 · 0 评论 -
使用Python进行用户参与度分析
用户参与度分析有助于企业了解人们如何与他们的产品或服务互动,使他们能够做出改进,使用户更快乐,更有可能留下来。它可以帮助企业为客户创建更好的UI/UX,并最终实现他们的目标。用户参与度分析可帮助各种类型的企业,包括电子商务、社交媒体、移动的应用程序和在线平台。例如,电子商务公司可以使用它来了解客户如何浏览他们的网站,他们喜欢什么产品,以及他们在每个页面上停留的时间。它可以帮助公司优化他们的网站设计,个性化的产品推荐,并改善营销策略,以提高客户满意度和忠诚度。原创 2024-01-03 16:59:01 · 891 阅读 · 0 评论