- 博客(452)
- 收藏
- 关注
原创 Python Pandas(13):Pandas 性能优化
Pandas 是一个非常强大的数据分析工具,但当数据集变得庞大时,常常会遇到性能瓶颈。为了提高 Pandas 在处理大规模数据时的效率,了解并应用一些性能优化技巧是非常必要的。Pandas 性能优化涉及多个方面,包括数据类型优化、避免不必要的循环、使用向量化操作、优化索引以及分块加载大数据集等方法。下面我们将详细介绍 Pandas 性能优化的几种方法。
2025-02-15 11:45:50
462
原创 Springboot3与openApi
其实是一种用于描述RESTful API的标准化格式,它定义了如何描述API的基本信息、结构、参数、响应等方面的规范。OpenAPI规范以机器可读的方式定义了RESTful API的结构和特征,支持自动生成文档、客户端与服务端代码、Mock Server和测试工具等。OpenAPI规范最初由开发Swagger的团队在2010年推出,从Swagger 2.0开始,Swagger规范被正式更名为OpenAPI规范,并得到了许多社区的支持和贡献。
2025-02-13 17:56:51
559
原创 Python Pandas(11):Pandas 数据可视化
Pandas 提供的plot()方法可以轻松地绘制不同类型的图表,包括折线图、柱状图、直方图、散点图等。plot()方法有很多参数,可以定制图表的样式、颜色、标签等。除了使用 Pandas 提供的plot()方法外,Matplotlib 还可以提供更灵活的自定义功能,例如添加标题、标签、设置图表风格、调整坐标轴等。# 示例数据# 绘制折线图# 自定义# 显示plt.show()
2025-02-13 09:29:46
989
原创 Python Pandas(10):Pandas 数据排序与聚合
数据排序与聚合是数据分析中非常常见且重要的操作,特别是在大数据集中的数据分析时。排序帮助我们按特定标准对数据进行排列,而聚合则让我们对数据进行汇总,计算出各种统计量。Pandas 提供了强大的排序和聚合功能,能够帮助分析人员高效地处理数据。
2025-02-12 09:53:51
335
原创 Python Pandas(9):Pandas 相关性分析
相关性分析是数据分析中常见且重要的一步,它帮助我们理解数据中不同变量之间的关系。在 Pandas 中,数据相关性分析是通过计算不同变量之间的相关系数来了解它们之间的关系。数据相关性是一项重要的分析任务,它帮助我们理解数据中各个变量之间的关系。Pandas 提供了多种方法来计算和分析数据的相关性,常见的相关性方法包括皮尔逊相关系数(Pearson)、斯皮尔曼等级相关系数(Spearman)以及肯德尔秩相关系数(Kendall)。相关性表示两个或多个变量之间的关系强度和方向。
2025-02-11 10:13:05
956
原创 Python Pandas(7):Pandas 数据清洗
数据清洗是对一些没有用的数据进行处理的过程。很多数据集存在数据缺失、数据格式错误、错误数据或重复数据的情况,如果要使数据分析更加准确,就需要对这些没有用的数据进行处理。
2025-02-10 10:49:58
2017
3
原创 Python Pandas(6):Pandas JSON
JSON(avacriptbjectotation,JavaScript 对象表示法),是存储和交换文本信息的语法,类似 XML。JSON 比 XML 更小、更快,更易解析。Pandas 提供了强大的方法来处理 JSON 格式的数据,支持从 JSON 文件或字符串中读取数据并将其转换为 DataFrame,以及将 DataFrame 转换回 JSON 格式。orientsplitrecordscolumnsPandas 可以很方便的处理 JSON 数据,本文以。
2025-02-09 13:12:07
729
原创 Python Pandas(5):Pandas Excel 文件操作
Pandas 提供了丰富的 Excel 文件操作功能,帮助我们方便地读取和写入.xls和.xlsx文件,支持多表单、索引、列选择等复杂操作,是数据分析中必备的工具。
2025-02-08 09:39:23
943
原创 Python Pandas(4):Pandas CSV 文件
CSV(Comma-Separated Values,逗号分隔值,有时也称为字符分隔值,因为分隔字符也可以不是逗号),其文件以纯文本形式存储表格数据(数字和文本)。CSV 是一种通用的、相对简单的文件格式,被用户、商业和科学广泛应用。
2025-02-07 09:46:08
939
原创 Python Pandas(3):DataFrame
DataFrame 是 Pandas 中的另一个核心数据结构,类似于一个二维的表格或数据库中的数据表。它含有一组有序的列,每列可以是不同的值类型(数值、字符串、布尔型值)。DataFrame 既有行索引也有列索引,它可以被看做由 Series 组成的字典(共同用一个索引),提供了各种功能来进行数据访问、筛选、分割、合并、重塑、聚合以及转换等操作。DataFrame 是一个非常灵活且强大的数据结构,广泛用于数据分析、清洗、转换、可视化等任务。
2025-02-06 09:36:24
1052
原创 Python Pandas(2):Series
Series 是 Pandas 中的一个核心数据结构,类似于一个一维的数组,具有数据和索引。Series 可以存储任何数据类型(整数、浮点数、字符串等),并通过标签(索引)来访问元素。Series 的数据结构是非常有用的,因为它可以处理各种数据类型,同时保持了高效的数据操作能力,比如可以通过标签来快速访问和操作数据。
2025-02-05 10:08:20
709
原创 Python Pandas(1):Pandas 简介
Pandas 是一个开源的数据分析和数据处理库,它是基于 Python 编程语言的。Pandas 提供了易于使用的数据结构和数据分析工具,特别适用于处理结构化数据,如表格型数据(类似于Excel表格)。和。安装 pandas 需要基础环境是 Python,Pandas 是一个基于 Python 的库,因此你需要先安装 Python,然后再通过 Python 的包管理工具 pip 安装 Pandas。
2025-02-05 09:30:53
845
原创 Python NumPy(14):NumPy与Matplotlib
Matplotlib 是 Python 的绘图库。它可与 NumPy 一起使用,提供了一种有效的 MatLab 开源替代方案。它也可以和图形工具包一起使用,如 PyQt 和 wxPython。安装完后,你可以使用 pip list 命令来查看是否安装了 matplotlib 模块。
2025-02-04 12:05:37
839
原创 Python NumPy(13):NumPy 线性代数、NumPy IO
对于多维数组,它的通用计算公式如下,即结果数组中的每个元素都是:数组a的最后一维上的所有元素与数组b的倒数第二位上的所有元素的乘积和: dot(a, b)[i,j,k,m] = sum(a[i,j,:] * b[k,:,m])。它从方阵的对角元素计算。虽然它返回二维数组的正常乘积,但如果任一参数的维数大于2,则将其视为存在于最后两个索引的矩阵的栈,并进行相应广播。:设A是数域上的一个n阶矩阵,若在相同数域上存在另一个n阶矩阵B,使得: AB=BA=E ,则我们称B是A的逆矩阵,而A则被称为可逆矩阵。
2025-02-03 20:20:03
584
原创 Python NumPy(12):NumPy 字节交换、NumPy 副本和视图、NumPy 矩阵库(Matrix)
变量 a,b 都是 arr 的一部分视图,对视图的修改会直接反映到原数据中。指数据的高字节保存在内存的低地址中,而数据的低字节保存在内存的高地址中,这样的存储模式有点儿类似于把数据当作字符串顺序处理:地址由小向大增加,而数据从高位往低位放;指数据的高字节保存在内存的高地址中,而数据的低字节保存在内存的低地址中,这种存储模式将地址的高低和数据位权有效地结合起来,高地址部分权值高,低地址部分权值低。ndarray.view() 方会创建一个新的数组对象,该方法创建的新数组的维数变化不会改变原始数据的维数。
2025-02-02 11:44:48
1162
原创 Python NumPy(11):NumPy 排序、条件筛选函数
NumPy 提供了多种排序的方法。这些排序函数实现不同的排序算法,每个排序算法的特征在于执行速度,最坏情况性能,所需的工作空间和算法的稳定性。下表显示了三种排序算法的比较。
2025-02-01 13:19:31
561
原创 Python NumPy(10):NumPy 统计函数
NumPy 提供了很多统计函数,用于从数组中查找最小元素,最大元素,百分位标准差和方差等。
2025-01-31 18:02:14
854
原创 Python NumPy(9):NumPy 数学函数、NumPy 算术函数
NumPy 包含大量的各种数学运算的函数,包括三角函数,算术运算的函数,复数处理函数等。
2025-01-31 15:13:13
730
原创 Python NumPy(8):NumPy 位运算、NumPy 字符串函数
位运算是一种在二进制数字的位级别上进行操作的一类运算,它们直接操作二进制数字的各个位,而不考虑数字的整体值。NumPy 提供了一系列位运算函数,允许对数组中的元素进行逐位操作,这些操作与 Python 的位运算符类似,但作用于 NumPy 数组,支持矢量化处理,性能更高。位运算在计算机科学中广泛应用于优化和处理底层数据。NumPy bitwise_ 开头的函数是位运算函数。也可以使用。
2025-01-30 18:50:05
724
原创 Python NumPy(7):连接数组、分割数组、数组元素的添加与删除
numpy.concatenate 函数用于沿指定轴连接相同形状的两个或多个数组,格式如下: :相同类型的数组 :沿着它连接数组的轴,默认为 0 numpy.stack 函数用于沿新轴连接数组序列,格式如下: 相同形状的数组序列 :返回数组中的轴,输入数组沿着它来堆叠 numpy.hstack 是 numpy.stack 函数的变体,它通过水平堆叠来生成数组。 numpy.vstack 是 numpy.stack 函
2025-01-29 16:50:00
1624
原创 Python NumPy(6):修改数组形状、翻转数组、修改数组维度
numpy.reshape 函数可以在不改变数据的条件下修改形状,格式如下: :要修改形状的数组 :整数或者整数数组,新的形状应当兼容原有形状 order:'C' -- 按行,'F' -- 按列,'A' -- 原顺序,'k' -- 元素在内存中的出现顺序。 numpy.ndarray.flat 是一个数组元素迭代器,实例如下: numpy.ndarray.flatten 返回一份数组拷贝,对拷贝所做的修改不会影响原始数组,格式如下: orde
2025-01-29 14:59:19
1322
原创 Python NumPy(5):广播、迭代
广播(Broadcast)是 numpy 对不同形状(shape)的数组进行数值计算的方式, 对数组的算术运算通常在相应的元素上进行。如果两个数组 a 和 b 形状相同,即满足,那么 a*b 的结果就是 a 与 b 数组对应位相乘。这要求维数相同,且各维度的长度相同。下面的图片展示了数组 b 如何通过广播来与数组 a 兼容。
2025-01-28 18:06:06
888
原创 Python NumPy(4):切片和索引
ndarray对象的内容可以通过索引或切片来访问和修改,与 Python 中 list 的切片操作一样。ndarray 数组可以基于 0 - n 的下标进行索引,切片对象可以通过内置的 slice 函数,并设置 start, stop 及 step 参数进行,从原数组中切割出一个新数组。以上实例中,我们首先通过 arange() 函数创建 ndarray 对象。然后,分别设置起始,终止和步长的参数为 2,7 和 2。我们也可以通过冒号分隔切片参数冒号 : 的解释:如果只放置一个参数,如。
2025-01-27 18:39:16
650
原创 Python NumPy(3):创建数组(2)
numpy.asarray 类似 numpy.array,但 numpy.asarray 参数只有三个,比 numpy.array 少两个。实例。
2025-01-26 16:15:53
826
原创 Python NumPy(2):NumPy 数组属性、创建数据
NumPy 数组的维数称为秩(rank),秩就是轴的数量,即数组的维度,一维数组的秩为 1,二维数组的秩为 2,以此类推。在 NumPy中,每一个线性的数组称为是一个轴(axis),也就是维度(dimensions)。比如说,二维数组相当于是两个一维数组,其中第一个一维数组中每个元素又是一个一维数组。所以一维数组就是 NumPy 中的轴(axis),第一个轴相当于是底层数组,第二个轴是底层数组里的数组。而轴的数量——秩,就是数组的维数。很多时候可以声明 axis。
2025-01-25 19:11:26
691
原创 Python NumPy(1):介绍、Ndarray对象、NumPy数据类型
NumPy(Numerical Python) 是 Python 语言的一个扩展程序库,支持大量的维度数组与矩阵运算,此外也针对数组运算提供大量的数学函数库。NumPy 通常与 SciPy(Scientific Python)和 Matplotlib(绘图库)一起使用, 这种组合广泛用于替代 MatLab,是一个强大的科学计算环境,有助于我们通过 Python 学习数据科学或者机器学习。SciPy 是一个开源的 Python 算法库和数学工具包。
2025-01-24 10:05:54
1023
原创 Linux系统:检查网络连接、更换yum源
编辑文件: vi /etc/resolv.conf,增加如下两行内容,分别是首选DNS服务器和备选DNS服务器。
2025-01-23 14:31:33
365
原创 机器学习(7):集成学习
在机器学习领域,集成学习(Ensemble Learning)是一种通过结合多个模型的预测结果来提高整体性能的技术。集成学习的核心思想是"三个臭皮匠,顶个诸葛亮",即通过多个弱学习器的组合,可以构建一个强学习器。集成学习的主要目标是通过组合多个模型来提高预测的准确性和鲁棒性。
2025-01-23 09:29:57
1228
原创 机器学习(6):K 近邻算法
k近邻算法是一种基本分类和回归方法。K近邻算法(KNN),即是给定一个训练数据集,对新的输入实例,在训练数据集中找到与该实例最邻近的K个实例,这K个实例的多数属于某个类,就把该输入实例分类到这个类中。(这就类似于现实生活中少数服从多数的思想):如上图所示,有两类不同的样本数据,分别用蓝色的小正方形和红色的小三角形表示,而图正中间的那个绿色的圆所标示的数据则是待分类的数据。这也就是我们的目的,来了一个新的数据点,我要得到它的类别是什么?好的,下面我们根据k近邻的思想来给绿色圆点进行分类。
2025-01-22 09:53:02
918
原创 机器学习(5):支持向量机
支持向量机(Support Vector Machine,简称 SVM)是一种监督学习算法,主要用于分类和回归问题。SVM 的核心思想是找到一个最优的超平面,将不同类别的数据分开。这个超平面不仅要能够正确分类数据,还要使得两个类别之间的间隔(margin)最大化。
2025-01-21 10:21:51
1196
原创 机器学习(4):决策树
决策树(DecisionTree),它是一种以树形数据结构来展示决策规则和分类结果的模型,作为一种归纳学习算法,其重点是将看似无序、杂乱的已知数据,通过某种技术手段将它们转化成可以预测未知数据的树状模型,每一条从根结点(对最终分类结果贡献最大的属性)到叶子结点(最终分类结果)的路径都代表一条决策的规则。
2025-01-20 13:23:48
1743
原创 复用类(4):final关键字、初始化与类的加载
根据上下文环境,java的关键字final的含义存在着细微的区别,但通常它指的是“这是无法改变的。”不想做改变可能出于两种理由:设计或效率。由于这两个原因相差很远,所以关键字final有可能被误用。以下谈论了可能使用到final的三种情况:数据、方法和类。
2025-01-17 17:55:52
1569
1
原创 复用类(3):在组合与继承之间选择、protected关键字、向上转型
在面向对象编程中,生成和使用程序代码最有可能采用的方法就是直接将数据和方法包装进一个类中,并使用该类的对象。也可以运用组合技术使用现有类来开发新的类;而继承技术其实不太常用。因此,尽管在教授OOP过程中我们多次强调继承,但这并不意味着要尽可能使用它。相反,应当慎用这一技术,其使用场合仅限于你确信使用该技术确实有效的情况。到底是该用组合还是用继承,一个最清晰的判断方法就是问一问自己是否需要从新类向基类进行向上转型。如果必须向上转型,则继承是必要的;如果不需要,则应当好好考虑自己是否需要继承。
2025-01-17 17:39:11
1134
1
原创 复用类(2):代理、结合使用组合和继承
第三种关系称为代理,这是继承与组合之间的中庸之道,因为我们将一个成员对象置于所要构造的类中(就像组合),但与此同时我们在新类中暴露了该成员对象的所有方法(就像继承)。然而,SpaceShip并非真正的SpaceShipControls类型,即便你可以“告诉”SpaceShip向前运动(forward())。更准确地讲,SpaceShip包含了SpaceShipControls,与此同时,SpaceShipControls的所有方法在SpaceShip中都暴露了出来。
2025-01-17 17:30:23
1297
1
原创 复用类(1):组合、继承
复用代码是java众多引人注目的功能之一。但要想成为极具革命性的语言,仅仅能够复制代码并对之加以改变是不够的,它还必须能够做更多的事情。上述方法常为C这类过程型语言所使用,但收效不是很好。正如java中所有事物一样,问题解决都是围绕着类展开的。可以通过创建新类来复用代码,而不必再从头开始编写。可以使用别人已开发并调试好的类。此方法的窍门在于使用类而不破坏现有程序代码。有两种达到这一目的方法。第一种方法非常直观:只需在新的类中产生现有类的对象。由于新的类是由现有类的对象所组成的,所以这种方法称为组合。
2025-01-17 17:19:58
1553
1
原创 机器学习(3):逻辑回归
逻辑回归通过使用Sigmoid函数将线性回归的输出转换为概率值,用于解决二分类问题。逻辑回归的训练过程通过最小化对数损失函数来优化模型参数。梯度下降法是常用的优化方法,用来更新模型参数 ww 和 bb。Python中的库提供了简单易用的接口来实现逻辑回归,并且能够轻松地进行模型训练、评估和可视化。
2025-01-17 15:12:13
1239
原创 DataEase部署
DataEase 是开源的数据可视化分析工具,帮助用户快速分析数据并洞察业务趋势,从而实现业务的改进与优化。DataEase 支持丰富的数据源连接,能够通过拖拉拽方式快速制作图表,并可以方便地与他人分享。
2025-01-16 14:28:43
817
原创 机器学习(2):线性回归Python实现
线性回归模型假设因变量y yy与自变量x xx之间的关系可以用以下线性方程表示: 在线性回归中,常用的损失函数是均方误差 (M S E MSEMSE) ,它衡量了模型预测值与真实值之间的平方差: 其中 n 是样本数量,yi 是第i个样本的真实值,y^i是模型对第i个样本的预测值。 线性回归模型的参数估计通常使用最小二乘法来进行。最小二乘法的目标是最小化损失函数,找到能使损失函数达到最小的参数值。 sklearn库实现
2025-01-15 10:12:21
399
dataease恢复资料包
2025-01-22
java系统用户相关的entity、service、mapper类
2024-10-14
ERP进销存系统需求规格说明
2024-10-14
linux系统docker离线镜像apollo-2.2.0镜像资源
2024-10-12
MyOffice办公系统的需求分析与设计方案
2024-09-19
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人