自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(102)
  • 收藏
  • 关注

原创 饺子大人的Python-Pandas

饺子大人的Python-Pandas我假设你已经有了一定的python基础,而是在日常的使用中为不知道某个函数的功能而发愁的小伙伴。以下是我总结分享出Numpy的一些函数的使用方法。希望能够帮助到大家。如果您觉得我分享的内容对您有点帮助的话,请点赞收藏吧。肯定有错,当然不全,但按你胃(Anyway),成长的路上就是要不断的犯错。博客中的代码都可以在我的GitHub中找到,需要的小伙伴请移步我的GitHub:https://github.com/DumplingsMajesty饺子大人的Pyth

2020-06-09 13:29:59 734 1

原创 饺子大人的Python-Numpy

Python-Numpy我叫饺子大人,当然这不是我的真名,只是因为我喜欢吃饺子而已。学生时不懂python,不懂Machine Learning,更不懂人工智能。所以,工作后开始了我漫长的自学之路。我很欣赏网上那些默默奉献的人们, 分享自己所学的东西给了我很大的帮助。所以我决定我也要像那些奉献的人们一样, 将我的所学奉献给大家~我将假设你已经有了一定的python基础,而是在日常的使用中为不知道某个函数的功能而发愁的小伙伴。在此我先总结分享出Numpy和Pandas的一些函数的使用方法。再总结个人的一些

2020-05-10 10:32:51 501 1

原创 25_NumPy数组np.round将ndarray舍入为偶数

使用 np.round() 将 NumPy 数组 ndarray 的元素值舍入为任意位数。请注意,0.5 由于舍入到偶数而不是一般舍入而舍入为 0.0。本文介绍了一般舍入的实现示例。

2024-05-14 21:04:08 642

原创 74_Pandas median获取中位数

使用median()方法获取pandas.DataFrame、pandas.Series的中值(1/2分位数、第50个百分位数)。中位数的定义如下。本节解释以下内容。

2024-04-30 09:45:08 432

原创 73_Pandas获取分位数/百分位数

使用 quantile() 方法获取 pandas 中 DataFrame 或 Series 的分位数/百分位数。目录本文示例代码的pandas版本如下。请注意,规格可能因版本而异。以下面的DataFrame为例。

2024-03-19 22:05:40 1625

原创 72_Pandas.DataFrame保存并读取带pickle的系列(to_pickle、read_pickle)

pickle 是 Python 标准库中包含的一个模块,用于将 Python 对象转换为字节(序列化、pickling)以及从字节转换为 Python 对象(反序列化、unpickling)。为了方便起见,这里将经过 pickle 并保存的文件称为 pickle 文件。

2024-02-27 21:00:07 2290 1

原创 71_Pandas.DataFrame排名

使用rank()方法对pandas.DataFrame和pandas.Series的行/列进行排名。sort_values() 是一种按升序或降序对 pandas.DataFrame 列和 pandas.Series 进行排序的方法,但rank() 返回每个元素的排名而不对数据进行排序。请参阅下面的文章了解 sort_values()。在此对以下内容进行说明。以下面的 pandas.DataFrame 为例。

2024-02-08 20:59:02 927

原创 70_Pandas中获取最大最小值的行名和列名

使用 idxmax() 和 idxmin() 方法获取 pandas.DataFrame 和 pandas.Series 中每列和行的最大值和最小值元素的行名和列名。pandas.DataFrame 和 pandas.Series 都有 idxmax() 和 idxmin() 方法。在此对以下内容进行说明。注意,行号和列号可以从行名和列名中获得。请参阅下面的文章。以下面的 pandas.DataFrame 为例。选择一列并将其用作 pandas.Series 的示例。

2024-01-26 21:48:05 1533

原创 69_Pandas.DataFrame获取行号和列号

将讲解如何从pandas.DataFrame的行名和列名中获取行号和列号,以及如何从列元素的值中获取行名和行号。下面对内容进行说明。如果想从行号或列号中获取行、列或元素的值,请参考下面的文章。以下面的 pandas.DataFrame 为例。

2024-01-15 14:13:41 3030

原创 68_Pandas.Series 索引和值的交换

将解释如何交换 pandas.Series 的索引(标签)和值。以下面的 pandas.Series 为例。导入timeit模块来测量处理速度。下面对内容进行说明。

2024-01-05 16:31:04 499

原创 67_Pandas将切片应用于字符串,以提取任意位置和长度的部分

使用负值来指定结束。

2023-11-26 21:35:39 1872

原创 66_Pandas如何检查和更改选项设置

使用 pandas,可以通过更改选项设置来自定义行为和显示。解释如何检查和更改各种设置值。在此对以下内容进行说明。

2023-10-31 21:41:46 262

原创 65_Pandas显示设置(小数位数、有效数字、最大行/列数等)

本文介绍了使用 print() 函数显示 pandas.DataFrame、pandas.Series 等时如何更改设置(小数点后位数、有效数字、最大行/列数等)。有关如何检查、更改和重置设置值的详细信息,请参阅下面的文章。设置更改仅在同一代码(脚本)内有效。它不会被永久重写,并在其他代码中再次成为默认设置。即使在同一代码中,您也可以临时更改 with 块中的设置。这里说明的只是显示时的设置,原始数据值本身不会改变。如果您想对数字进行四舍五入或将其转换为指定格式的字符串,请参阅下面的文章。导入以下库。

2023-10-20 21:08:40 2834

原创 64_Pandas进行字符串和数字的相互转换和格式化

本文介绍如何在 pandas.DataFrame 和 pandas.Series 中进行字符串和数字之间的转换,以及如何更改字符串的格式。下面对内容进行说明。

2023-10-10 14:21:58 6782

原创 63_Pandas中数字的四舍五入

要对 pandas.DataFrame、pandas.Series 的数字进行四舍五入,请使用 round() 方法。round() 方法舍入为偶数而不是四舍五入。如果要四舍五入,请将标准库十进制模块的 quantize() 应用于每个元素。本示例代码中的各个版本如下。下面对内容进行说明。

2023-08-20 20:31:46 1661

原创 62_Pandas有条件地提取 pandas.DataFrame 的行

使用query()方法根据pandas.DataFrame的列值的条件提取行。它很方便,因为您可以使用比较运算符和字符串方法以及多个条件的组合来简洁地描述条件规范。目录有关布尔索引的条件指定,请参阅以下文章。本文示例代码的pandas版本为2.0.3版本。请注意,行为可能因版本而异。

2023-07-16 21:35:58 5204

原创 61_Pandas中将列表存储和处理为 pandas 中的元素

作为 pandas.DataFrame 的一个元素,Series,你可以存储列表,这是 Python 的内置类型。例如,对于由分隔符分隔的字符串,列出它们可能比用字符串方法处理它们更方便。在此,对以下内容进行说明。以下面的 pandas.DataFrame 为例。

2023-05-14 20:13:38 2241 1

原创 60_Pandas中是否包含判断缺失值NaN并统计个数

无法检测缺失值。因此,从isnull()结果的values属性(numpy.ndarray)调用sum(),可以得到缺失值的总数(total number)。由于sum()被处理为True=1,False=0,通过对isnull()的结果应用sum(),我们可以统计每行和每列缺失值NaN的个数。可以从 notnull() 或 notna() 产生的值属性 (numpy.ndarray) 调用 sum()(对于非缺失元素为真)。isnull() 是 isna() 的别名,两者用法相同。

2023-04-28 22:00:42 2377

原创 59_Pandas中使用describe获取每列的汇总统计信息(平均值、标准差等)

使用 pandas.DataFrame 和 pandas.Series 的 describe() 方法,您可以获得汇总统计信息,例如每列的均值、标准差、最大值、最小值和众数。在此,对以下内容进行说明。示例代码中,以每列具有不同类型 dtype 的 pandas.DataFrame 为例。

2023-04-10 20:33:23 9150

原创 58_Pandas中mode获取pandas的每一行和列

使用pandas.Series和pandas.DataFrame的mode()方法,可以得到每一列每一行的mode。在此,对以下内容进行说明。

2023-03-26 20:20:44 1649

原创 57_Pandas中的json_normalize将字典列表转换为DataFrame

可以使用 pandas.json_normalize() 将具有公共键的字典列表转换为 pandas.DataFrame。由于它是一种常用的JSON格式,可以通过Web API获取,所以能够将其转换为pandas.DataFrame是非常方便的。在此,对以下内容进行说明。使用 pandas.read_json() 直接读取 JSON 字符串或文件作为 pandas.DataFrame 而不是由字典或列表组成的对象。

2023-02-25 20:01:03 1634 1

原创 56_Pandas读取 JSON 字符串/文件 (read_json)

使用pandas.read_json()函数,可以将JSON格式字符串(str类型)和文件读取为pandas.DataFrame。它还支持 JSON 行 (.jsonl)。读取成pandas.DataFrame后,可以做各种数据分析,也可以用to_csv()方法保存成csv文件,这样就可以很方便的通过pandas将JSON文件转为CSV文件。在此,对以下内容进行说明。

2023-01-04 22:01:31 10293

原创 55_Pandas.DataFrame 转换为 JSON 字符串/文件并保存 (to_json)

使用pandas.DataFrame的方法to_json(),可以将pandas.DataFrame转为JSON格式字符串(str类型)或者输出(保存)为JSON格式文件。在此,对以下内容进行说明。有关其他参数,请参阅上面的官方文档。如果要将 pandas.DataFrame 转换为字典(dict 类型),请使用 to_dict() 方法。另外,用pandas读写(输入/输出)CSV文件和Excel文件见以下文章。这里以创建如下 pandas.DataFrame 为例。

2022-11-30 15:06:46 16862

原创 54_Pandas将DataFrame、Series转换为字典 (to_dict)

pandas.DataFrame、pandas.Series可以使用to_dict()方法转换为字典(dict类型对象)。对于pandas.DataFrame,参数orient可以用来指定pandas.DataFrame的行标签索引、列标签列和值如何分配给字典的键和值。在 pandas.Series 的情况下,它被转换为以标签作为键的字典。此处解释以下内容。创建以下 pandas.DataFrame 作为示例。

2022-11-24 14:33:18 10002

原创 53_Pandas中的条件替换值(where, mask)

我会解释如何在pandas中根据条件赋值。虽然它不使用 if 语句,但它可以处理条件分支,如 if then … 或 if then … else …。具体值的替换见后面的文章,替换或删除缺失值NaN。以下面的 pandas.DataFrame 为例。以下内容进行说明。

2022-11-19 16:04:08 6635

原创 52_Pandas处理日期和时间列(字符串转换、日期提取等)

将解释如何操作表示 pandas.DataFrame 的日期和时间(日期和时间)的列。字符串与 datetime64[ns] 类型的相互转换,将日期和时间提取为数字的方法等。以下内容进行说明。

2022-11-05 15:04:16 19343

原创 51_Pandas (to_excel) 编写 Excel 文件 (xlsx, xls)

Pandas (to_excel) 编写 Excel 文件 (xlsx, xls)

2022-08-23 13:41:25 3907

原创 50_Pandas读取 Excel 文件 (xlsx, xls)

50_Pandas读取 Excel 文件 (xlsx, xls)要使用 pandas 将 Excel 文件(扩展名:.xlsx、.xls)作为 pandas.DataFrame 读取,请使用 pandas.read_excel () 函数。这里,将描述以下内容。openpyxl、xlrd的安装pandas.read_excel()的基本用法通过编号/工作表名称指定要读取的工作表:参数 sheet_name读取一张Sheet读取多张Sheet加载所有Sheet指定标头、索引:参数he

2022-05-19 16:16:30 66079 3

原创 49_Pandas.DataFrame添加列和行(分配、追加等)

49_Pandas.DataFrame添加列和行(分配、追加等)如何向 pandas.DataFrame 添加新的列或行。通过指定新的列名/行名来添加,或者用pandas.DataFrame的assign()、insert()、append()方法添加等方法。这里,将描述以下内容。将列添加到 pandas.DataFrame通过指定新列名添加用assign()方法添加/分配用insert()方法添加到任意位置使用 concat() 函数水平连接 Series 和 DataFrame

2022-01-06 10:06:57 42828 1

原创 48_Python列表和数组与numpy.ndarray的区别和使用方法

48_Python列表和数组与numpy.ndarray的区别和使用方法Python 在标准库中有一个列表作为内置类型和一个数组数组。您还可以通过安装数值库 NumPy 来使用多维数组 numpy.ndarray。 我将解释它们之间的区别以及如何正确使用它们。我将解释它们之间的区别以及如何正确使用它们。列表和数组与 numpy.ndarray之间的差异列表 --list数组 --array多维数组 --numpy.ndarray教条主义和偏见的不同用法数据分析库pandas最后,我

2021-11-19 09:09:54 3365

原创 47_Pandas使用cut和qcut函数进行分箱处理

47_Pandas使用cut和qcut函数进行分箱处理分箱处理(bin Division)是将连续值除以任意边界值,将其划分为类别,再将其转换为离散值的处理。它通常作为机器学习的预处理完成。比如有一个过程,比如将年龄数据分为十几岁和二十几岁。根据值拆分:cut()按数量拆分:qcut()它们是有区别的。在这里,下面的内容将讲解如何使用pandas.cut()和pandas.qcut()。等分或任意边界值的分箱过程:cut()以相等的间隔除以最大值和最小值通过指定边界值拆分获取边界值列

2021-09-30 10:39:25 7698 1

原创 46_Pandas,Python,Seaborn热图的生成

46_Pandas,Python,Seaborn热图的生成Python 的可视化库 seaborn 可以轻松创建可视化 2D 数据的热图。使用 seaborn.heatmap() 函数。Pandas 不是必须的,但是如果使用pandas.DataFrame 作为2D 数据,行列名会显示为x 轴和y 轴标签,很方便。这里,将描述以下内容。seaborn.heatmap()函数的基本用法作为对象操作seaborn.heatmap() 函数的主要参数显示编号:annot显示/隐藏颜色条

2021-08-12 13:58:48 3806

原创 45_Pandas.DataFrame计算每列之间的相关系数并用热图可视化

45_Pandas.DataFrame计算每列之间的相关系数并用热图可视化使用corr()方法计算pandas.DataFrame中各列之间的相关系数。这里,将描述以下内容。pandas.DataFrame.corr()的基本用法数据类型为数值型或布尔型的列的计算目标排除并计算缺失值 NaN指定如何计算相关系数:argument method使用热图可视化相关系数:seaborn以下面的pandas.DataFrame为例。import pandas as pdimport n

2021-07-29 16:29:17 9828 1

原创 44_Pandas将分类变量转换为虚拟变量(get_dummies)

44_Pandas将分类变量转换为虚拟变量(get_dummies)要将分类变量(分类数据、定性数据)转换为 pandas 中的虚拟变量,请使用 pandas.get_dummies() 函数。按字符串分类的性别等数据可以转换为男性为0,女性为1,多类特征可以转换为one-hot表达式。通常作为机器学习的预处理执行。这里,将描述以下内容。pandas.get_dummies()的基本用法排除第一类:drop_first缺失值NaN虚拟化:dummy_na指定pandas.DataFrame的

2021-06-22 14:38:04 7024

原创 43_Pandas版本的检查(pd.show_versions)

43_Pandas版本的检查(pd.show_versions)有以下几种方法可以检查脚本中使用的Pandas的版本。获取版本号:__version__属性显示诸如依赖包之类的详细信息:show_versions()函数获取版本号:__version__属性像许多其他软件包一样,Pandas也可以使用__version__属性获取版本号。import pandas as pdprint(pd.__version__)# 1.0.3显示诸如依赖包之类的详细信息:show_versio

2021-05-16 15:06:45 7549

原创 42_Pandas字符串中提取正则表达式来生成新列

42_Pandas字符串中提取正则表达式来生成新列如何通过从以字符串为元素的pandas.DataFrame列和pandas.Series中提取带有正则表达式的特定字符串来生成新列。使用以下字符串方法。str.extract():仅提取第一个匹配项str.extractall():提取所有匹配项如果要从pandas.DataFrame的列中提取,可以指定列(= pandas.Series),例如df [‘column name’],然后调用str.extract()或str.extractal

2021-04-30 13:05:28 7944 2

原创 41_Pandas使用数据透视表计算每个类别的统计信息

41_Pandas使用数据透视表计算每个类别的统计信息通过使用pandas.pivot_table()函数,可以实现与电子表格软件(例如Excel)的数据透视表功能相同的处理。可以通过对分类数据的每个类别(分类数据,定性数据)进行分组(分组)来检查和分析定量数据统计信息(平均值,总计,最大值,最小值,标准差等)。分别准备了一个名为pandas.crosstab()的函数,以汇总每个类别的出现次数和频率(也可以使用pivot_table())。40_Pandas中crosstab进行交叉制表(计算每

2021-04-24 12:56:21 6519 1

原创 40_Pandas中crosstab进行交叉制表(计算每个类别的出现次数和频率)

40_Pandas中crosstab进行交叉制表(计算每个类别的出现次数和频率)可以使用pandas.crosstab()函数完成交叉表分析。 可以为每个类别的分类数据(分类数据,定性数据)计算样本数(出现次数/频率)。如果要计算每个类别的平均值而不是出现次数,请使用数据透视表pandas.pivot_table()。这里,pandas.crosstab()函数的基本用法计算每个类别的小计/总计:参数margins标准化整个/行/列:参数normalize将予以描述。 将以泰坦尼克号的生存信

2021-04-12 16:29:55 2729

原创 39_Pandas.Serise用map方法替换列元素

39_Pandas.Serise用map方法替换列元素pandas.Series的map,通过将函数作为参数传递给pandas.Series的每个元素的函数。06_Pandas中map(),applymap(),apply()函数的使用方法 可以将字典类型dict指定为map()的参数。替换元素的方法具有replace(),但是如果要使用不同的值替换pandas.Series或pandas.DataFrame列(= pandas.Series)中的所有元素,则map()会更好。24_Pand

2021-03-25 13:30:08 2728

原创 38_Pandas中Multiindex的计算每层的统计数据和样本大小

38_Pandas中Multiindex的计算每层的统计数据和样本大小在具有Multiindex(多索引,层次结构索引)的pandas.DataFrame和pandas.Series中,可以计算统计数据(平均值,最大值,最小值,总计,标准差等)以及每个层次结构中每个项目的样本数。通过使用groupby方法可以完成相同的操作,而无需设置多索引。有关详细信息,请参见以下文章。16_Pandas.DataFrame计算统计信息并按GroupBy分组有关如何设置多重索引以及如何在多重索引中选择行和列的信

2021-03-13 13:31:11 1614

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除