![](https://img-blog.csdnimg.cn/20200510101548508.png?x-oss-process=image/resize,m_fixed,h_224,w_224)
Pandas
文章平均质量分 86
pandas 是基于NumPy 的一种工具,该工具是为了解决数据分析任务而创建的。Pandas 纳入了大量库和一些标准的数据模型,提供了高效地操作大型数据集所需的工具。
饺子大人
我叫饺子大人,当然这不是我的真名,只是因为我喜欢吃饺子而已。学生时不懂python,不懂Machine Learning,更不懂人工智能。所以,工作后开始了我漫长的自学之路。我很欣赏网上那些默默奉献的人们, 分享自己所学的东西给了我很大的帮助。所以我决定我也要像那些奉献的人们一样, 将我的所学奉献给大家~可能有错,可能不全,但按你胃(Anyway),成长的路上就是要不断的犯错。
Numpy→Pandas→Machine Learning
这是我的炼丹之道。
博客中的代码都可以在我GitHub中找到,需要的小伙伴请移步https://github.com/DumplingsMajesty
展开
-
74_Pandas median获取中位数
使用median()方法获取pandas.DataFrame、pandas.Series的中值(1/2分位数、第50个百分位数)。中位数的定义如下。本节解释以下内容。原创 2024-04-30 09:45:08 · 402 阅读 · 0 评论 -
73_Pandas获取分位数/百分位数
使用 quantile() 方法获取 pandas 中 DataFrame 或 Series 的分位数/百分位数。目录本文示例代码的pandas版本如下。请注意,规格可能因版本而异。以下面的DataFrame为例。原创 2024-03-19 22:05:40 · 1426 阅读 · 0 评论 -
72_Pandas.DataFrame保存并读取带pickle的系列(to_pickle、read_pickle)
pickle 是 Python 标准库中包含的一个模块,用于将 Python 对象转换为字节(序列化、pickling)以及从字节转换为 Python 对象(反序列化、unpickling)。为了方便起见,这里将经过 pickle 并保存的文件称为 pickle 文件。原创 2024-02-27 21:00:07 · 2124 阅读 · 1 评论 -
71_Pandas.DataFrame排名
使用rank()方法对pandas.DataFrame和pandas.Series的行/列进行排名。sort_values() 是一种按升序或降序对 pandas.DataFrame 列和 pandas.Series 进行排序的方法,但rank() 返回每个元素的排名而不对数据进行排序。请参阅下面的文章了解 sort_values()。在此对以下内容进行说明。以下面的 pandas.DataFrame 为例。原创 2024-02-08 20:59:02 · 901 阅读 · 0 评论 -
70_Pandas中获取最大最小值的行名和列名
使用 idxmax() 和 idxmin() 方法获取 pandas.DataFrame 和 pandas.Series 中每列和行的最大值和最小值元素的行名和列名。pandas.DataFrame 和 pandas.Series 都有 idxmax() 和 idxmin() 方法。在此对以下内容进行说明。注意,行号和列号可以从行名和列名中获得。请参阅下面的文章。以下面的 pandas.DataFrame 为例。选择一列并将其用作 pandas.Series 的示例。原创 2024-01-26 21:48:05 · 1458 阅读 · 0 评论 -
69_Pandas.DataFrame获取行号和列号
将讲解如何从pandas.DataFrame的行名和列名中获取行号和列号,以及如何从列元素的值中获取行名和行号。下面对内容进行说明。如果想从行号或列号中获取行、列或元素的值,请参考下面的文章。以下面的 pandas.DataFrame 为例。原创 2024-01-15 14:13:41 · 2757 阅读 · 0 评论 -
68_Pandas.Series 索引和值的交换
将解释如何交换 pandas.Series 的索引(标签)和值。以下面的 pandas.Series 为例。导入timeit模块来测量处理速度。下面对内容进行说明。原创 2024-01-05 16:31:04 · 470 阅读 · 0 评论 -
67_Pandas将切片应用于字符串,以提取任意位置和长度的部分
使用负值来指定结束。原创 2023-11-26 21:35:39 · 1692 阅读 · 0 评论 -
66_Pandas如何检查和更改选项设置
使用 pandas,可以通过更改选项设置来自定义行为和显示。解释如何检查和更改各种设置值。在此对以下内容进行说明。原创 2023-10-31 21:41:46 · 255 阅读 · 0 评论 -
65_Pandas显示设置(小数位数、有效数字、最大行/列数等)
本文介绍了使用 print() 函数显示 pandas.DataFrame、pandas.Series 等时如何更改设置(小数点后位数、有效数字、最大行/列数等)。有关如何检查、更改和重置设置值的详细信息,请参阅下面的文章。设置更改仅在同一代码(脚本)内有效。它不会被永久重写,并在其他代码中再次成为默认设置。即使在同一代码中,您也可以临时更改 with 块中的设置。这里说明的只是显示时的设置,原始数据值本身不会改变。如果您想对数字进行四舍五入或将其转换为指定格式的字符串,请参阅下面的文章。导入以下库。原创 2023-10-20 21:08:40 · 2659 阅读 · 0 评论 -
64_Pandas进行字符串和数字的相互转换和格式化
本文介绍如何在 pandas.DataFrame 和 pandas.Series 中进行字符串和数字之间的转换,以及如何更改字符串的格式。下面对内容进行说明。原创 2023-10-10 14:21:58 · 6290 阅读 · 0 评论 -
63_Pandas中数字的四舍五入
要对 pandas.DataFrame、pandas.Series 的数字进行四舍五入,请使用 round() 方法。round() 方法舍入为偶数而不是四舍五入。如果要四舍五入,请将标准库十进制模块的 quantize() 应用于每个元素。本示例代码中的各个版本如下。下面对内容进行说明。原创 2023-08-20 20:31:46 · 1503 阅读 · 0 评论 -
62_Pandas有条件地提取 pandas.DataFrame 的行
使用query()方法根据pandas.DataFrame的列值的条件提取行。它很方便,因为您可以使用比较运算符和字符串方法以及多个条件的组合来简洁地描述条件规范。目录有关布尔索引的条件指定,请参阅以下文章。本文示例代码的pandas版本为2.0.3版本。请注意,行为可能因版本而异。原创 2023-07-16 21:35:58 · 4815 阅读 · 0 评论 -
61_Pandas中将列表存储和处理为 pandas 中的元素
作为 pandas.DataFrame 的一个元素,Series,你可以存储列表,这是 Python 的内置类型。例如,对于由分隔符分隔的字符串,列出它们可能比用字符串方法处理它们更方便。在此,对以下内容进行说明。以下面的 pandas.DataFrame 为例。原创 2023-05-14 20:13:38 · 2120 阅读 · 1 评论 -
60_Pandas中是否包含判断缺失值NaN并统计个数
无法检测缺失值。因此,从isnull()结果的values属性(numpy.ndarray)调用sum(),可以得到缺失值的总数(total number)。由于sum()被处理为True=1,False=0,通过对isnull()的结果应用sum(),我们可以统计每行和每列缺失值NaN的个数。可以从 notnull() 或 notna() 产生的值属性 (numpy.ndarray) 调用 sum()(对于非缺失元素为真)。isnull() 是 isna() 的别名,两者用法相同。原创 2023-04-28 22:00:42 · 2274 阅读 · 0 评论 -
59_Pandas中使用describe获取每列的汇总统计信息(平均值、标准差等)
使用 pandas.DataFrame 和 pandas.Series 的 describe() 方法,您可以获得汇总统计信息,例如每列的均值、标准差、最大值、最小值和众数。在此,对以下内容进行说明。示例代码中,以每列具有不同类型 dtype 的 pandas.DataFrame 为例。原创 2023-04-10 20:33:23 · 8948 阅读 · 0 评论 -
58_Pandas中mode获取pandas的每一行和列
使用pandas.Series和pandas.DataFrame的mode()方法,可以得到每一列每一行的mode。在此,对以下内容进行说明。原创 2023-03-26 20:20:44 · 1622 阅读 · 0 评论 -
57_Pandas中的json_normalize将字典列表转换为DataFrame
可以使用 pandas.json_normalize() 将具有公共键的字典列表转换为 pandas.DataFrame。由于它是一种常用的JSON格式,可以通过Web API获取,所以能够将其转换为pandas.DataFrame是非常方便的。在此,对以下内容进行说明。使用 pandas.read_json() 直接读取 JSON 字符串或文件作为 pandas.DataFrame 而不是由字典或列表组成的对象。原创 2023-02-25 20:01:03 · 1583 阅读 · 1 评论 -
56_Pandas读取 JSON 字符串/文件 (read_json)
使用pandas.read_json()函数,可以将JSON格式字符串(str类型)和文件读取为pandas.DataFrame。它还支持 JSON 行 (.jsonl)。读取成pandas.DataFrame后,可以做各种数据分析,也可以用to_csv()方法保存成csv文件,这样就可以很方便的通过pandas将JSON文件转为CSV文件。在此,对以下内容进行说明。原创 2023-01-04 22:01:31 · 9950 阅读 · 0 评论 -
55_Pandas.DataFrame 转换为 JSON 字符串/文件并保存 (to_json)
使用pandas.DataFrame的方法to_json(),可以将pandas.DataFrame转为JSON格式字符串(str类型)或者输出(保存)为JSON格式文件。在此,对以下内容进行说明。有关其他参数,请参阅上面的官方文档。如果要将 pandas.DataFrame 转换为字典(dict 类型),请使用 to_dict() 方法。另外,用pandas读写(输入/输出)CSV文件和Excel文件见以下文章。这里以创建如下 pandas.DataFrame 为例。原创 2022-11-30 15:06:46 · 16193 阅读 · 0 评论 -
54_Pandas将DataFrame、Series转换为字典 (to_dict)
pandas.DataFrame、pandas.Series可以使用to_dict()方法转换为字典(dict类型对象)。对于pandas.DataFrame,参数orient可以用来指定pandas.DataFrame的行标签索引、列标签列和值如何分配给字典的键和值。在 pandas.Series 的情况下,它被转换为以标签作为键的字典。此处解释以下内容。创建以下 pandas.DataFrame 作为示例。原创 2022-11-24 14:33:18 · 9798 阅读 · 0 评论 -
53_Pandas中的条件替换值(where, mask)
我会解释如何在pandas中根据条件赋值。虽然它不使用 if 语句,但它可以处理条件分支,如 if then … 或 if then … else …。具体值的替换见后面的文章,替换或删除缺失值NaN。以下面的 pandas.DataFrame 为例。以下内容进行说明。原创 2022-11-19 16:04:08 · 6465 阅读 · 0 评论 -
52_Pandas处理日期和时间列(字符串转换、日期提取等)
将解释如何操作表示 pandas.DataFrame 的日期和时间(日期和时间)的列。字符串与 datetime64[ns] 类型的相互转换,将日期和时间提取为数字的方法等。以下内容进行说明。原创 2022-11-05 15:04:16 · 18537 阅读 · 0 评论 -
51_Pandas (to_excel) 编写 Excel 文件 (xlsx, xls)
Pandas (to_excel) 编写 Excel 文件 (xlsx, xls)原创 2022-08-23 13:41:25 · 3862 阅读 · 0 评论 -
50_Pandas读取 Excel 文件 (xlsx, xls)
50_Pandas读取 Excel 文件 (xlsx, xls)要使用 pandas 将 Excel 文件(扩展名:.xlsx、.xls)作为 pandas.DataFrame 读取,请使用 pandas.read_excel () 函数。这里,将描述以下内容。openpyxl、xlrd的安装pandas.read_excel()的基本用法通过编号/工作表名称指定要读取的工作表:参数 sheet_name读取一张Sheet读取多张Sheet加载所有Sheet指定标头、索引:参数he原创 2022-05-19 16:16:30 · 64883 阅读 · 3 评论 -
49_Pandas.DataFrame添加列和行(分配、追加等)
49_Pandas.DataFrame添加列和行(分配、追加等)如何向 pandas.DataFrame 添加新的列或行。通过指定新的列名/行名来添加,或者用pandas.DataFrame的assign()、insert()、append()方法添加等方法。这里,将描述以下内容。将列添加到 pandas.DataFrame通过指定新列名添加用assign()方法添加/分配用insert()方法添加到任意位置使用 concat() 函数水平连接 Series 和 DataFrame原创 2022-01-06 10:06:57 · 41526 阅读 · 1 评论 -
48_Python列表和数组与numpy.ndarray的区别和使用方法
48_Python列表和数组与numpy.ndarray的区别和使用方法Python 在标准库中有一个列表作为内置类型和一个数组数组。您还可以通过安装数值库 NumPy 来使用多维数组 numpy.ndarray。 我将解释它们之间的区别以及如何正确使用它们。我将解释它们之间的区别以及如何正确使用它们。列表和数组与 numpy.ndarray之间的差异列表 --list数组 --array多维数组 --numpy.ndarray教条主义和偏见的不同用法数据分析库pandas最后,我原创 2021-11-19 09:09:54 · 3341 阅读 · 0 评论 -
47_Pandas使用cut和qcut函数进行分箱处理
47_Pandas使用cut和qcut函数进行分箱处理分箱处理(bin Division)是将连续值除以任意边界值,将其划分为类别,再将其转换为离散值的处理。它通常作为机器学习的预处理完成。比如有一个过程,比如将年龄数据分为十几岁和二十几岁。根据值拆分:cut()按数量拆分:qcut()它们是有区别的。在这里,下面的内容将讲解如何使用pandas.cut()和pandas.qcut()。等分或任意边界值的分箱过程:cut()以相等的间隔除以最大值和最小值通过指定边界值拆分获取边界值列原创 2021-09-30 10:39:25 · 7496 阅读 · 1 评论 -
46_Pandas,Python,Seaborn热图的生成
46_Pandas,Python,Seaborn热图的生成Python 的可视化库 seaborn 可以轻松创建可视化 2D 数据的热图。使用 seaborn.heatmap() 函数。Pandas 不是必须的,但是如果使用pandas.DataFrame 作为2D 数据,行列名会显示为x 轴和y 轴标签,很方便。这里,将描述以下内容。seaborn.heatmap()函数的基本用法作为对象操作seaborn.heatmap() 函数的主要参数显示编号:annot显示/隐藏颜色条原创 2021-08-12 13:58:48 · 3714 阅读 · 0 评论 -
45_Pandas.DataFrame计算每列之间的相关系数并用热图可视化
45_Pandas.DataFrame计算每列之间的相关系数并用热图可视化使用corr()方法计算pandas.DataFrame中各列之间的相关系数。这里,将描述以下内容。pandas.DataFrame.corr()的基本用法数据类型为数值型或布尔型的列的计算目标排除并计算缺失值 NaN指定如何计算相关系数:argument method使用热图可视化相关系数:seaborn以下面的pandas.DataFrame为例。import pandas as pdimport n原创 2021-07-29 16:29:17 · 9646 阅读 · 1 评论 -
44_Pandas将分类变量转换为虚拟变量(get_dummies)
44_Pandas将分类变量转换为虚拟变量(get_dummies)要将分类变量(分类数据、定性数据)转换为 pandas 中的虚拟变量,请使用 pandas.get_dummies() 函数。按字符串分类的性别等数据可以转换为男性为0,女性为1,多类特征可以转换为one-hot表达式。通常作为机器学习的预处理执行。这里,将描述以下内容。pandas.get_dummies()的基本用法排除第一类:drop_first缺失值NaN虚拟化:dummy_na指定pandas.DataFrame的原创 2021-06-22 14:38:04 · 6951 阅读 · 0 评论 -
43_Pandas版本的检查(pd.show_versions)
43_Pandas版本的检查(pd.show_versions)有以下几种方法可以检查脚本中使用的Pandas的版本。获取版本号:__version__属性显示诸如依赖包之类的详细信息:show_versions()函数获取版本号:__version__属性像许多其他软件包一样,Pandas也可以使用__version__属性获取版本号。import pandas as pdprint(pd.__version__)# 1.0.3显示诸如依赖包之类的详细信息:show_versio原创 2021-05-16 15:06:45 · 7380 阅读 · 0 评论 -
42_Pandas字符串中提取正则表达式来生成新列
42_Pandas字符串中提取正则表达式来生成新列如何通过从以字符串为元素的pandas.DataFrame列和pandas.Series中提取带有正则表达式的特定字符串来生成新列。使用以下字符串方法。str.extract():仅提取第一个匹配项str.extractall():提取所有匹配项如果要从pandas.DataFrame的列中提取,可以指定列(= pandas.Series),例如df [‘column name’],然后调用str.extract()或str.extractal原创 2021-04-30 13:05:28 · 7849 阅读 · 2 评论 -
41_Pandas使用数据透视表计算每个类别的统计信息
41_Pandas使用数据透视表计算每个类别的统计信息通过使用pandas.pivot_table()函数,可以实现与电子表格软件(例如Excel)的数据透视表功能相同的处理。可以通过对分类数据的每个类别(分类数据,定性数据)进行分组(分组)来检查和分析定量数据统计信息(平均值,总计,最大值,最小值,标准差等)。分别准备了一个名为pandas.crosstab()的函数,以汇总每个类别的出现次数和频率(也可以使用pivot_table())。40_Pandas中crosstab进行交叉制表(计算每原创 2021-04-24 12:56:21 · 6355 阅读 · 1 评论 -
40_Pandas中crosstab进行交叉制表(计算每个类别的出现次数和频率)
40_Pandas中crosstab进行交叉制表(计算每个类别的出现次数和频率)可以使用pandas.crosstab()函数完成交叉表分析。 可以为每个类别的分类数据(分类数据,定性数据)计算样本数(出现次数/频率)。如果要计算每个类别的平均值而不是出现次数,请使用数据透视表pandas.pivot_table()。这里,pandas.crosstab()函数的基本用法计算每个类别的小计/总计:参数margins标准化整个/行/列:参数normalize将予以描述。 将以泰坦尼克号的生存信原创 2021-04-12 16:29:55 · 2651 阅读 · 0 评论 -
39_Pandas.Serise用map方法替换列元素
39_Pandas.Serise用map方法替换列元素pandas.Series的map,通过将函数作为参数传递给pandas.Series的每个元素的函数。06_Pandas中map(),applymap(),apply()函数的使用方法 可以将字典类型dict指定为map()的参数。替换元素的方法具有replace(),但是如果要使用不同的值替换pandas.Series或pandas.DataFrame列(= pandas.Series)中的所有元素,则map()会更好。24_Pand原创 2021-03-25 13:30:08 · 2701 阅读 · 0 评论 -
38_Pandas中Multiindex的计算每层的统计数据和样本大小
38_Pandas中Multiindex的计算每层的统计数据和样本大小在具有Multiindex(多索引,层次结构索引)的pandas.DataFrame和pandas.Series中,可以计算统计数据(平均值,最大值,最小值,总计,标准差等)以及每个层次结构中每个项目的样本数。通过使用groupby方法可以完成相同的操作,而无需设置多索引。有关详细信息,请参见以下文章。16_Pandas.DataFrame计算统计信息并按GroupBy分组有关如何设置多重索引以及如何在多重索引中选择行和列的信原创 2021-03-13 13:31:11 · 1568 阅读 · 0 评论 -
37_Pandas中Multiindex的指定,添加,取消,排序,级别的更改
37_Pandas中Multiindex的指定,添加,取消,排序,级别的更改在Pandas中设置了Multiindex(多索引,层次索引)可以更轻松地查看每个层次中每个项目的统计信息。这里,将描述关于多索引设置的以下内容。读取文件时设置:read_csv()指定/添加数据列到多索引:set_index()取消多索引:reset_index()排序多索引:sort_index()更改多索引级别:swaplevel()以下面的数据为例。import pandas as pddf = p原创 2021-02-28 13:52:37 · 11638 阅读 · 0 评论 -
36_Pandas获取行数,列数和元素总数(大小)
36_Pandas获取行数,列数和元素总数(大小)如何获取pandas.DataFrame和pandas.Series的行数,列数和总元素(大小)。pandas.DataFrame显示行数,列数等:df.info()获取行数:len(df)获取列数:len(df.columns)获取行数和列数:df.shape获取元素总数(大小):df.size指定index时的注意事项pandas.Series获取元素总数(大小):len(s),s.size将以泰坦尼克号幸存者数据为例。原创 2021-02-21 14:21:05 · 58268 阅读 · 0 评论 -
35_Pandas计算满足特定条件的元素的数量
35_Pandas计算满足特定条件的元素的数量将说明在pandas.DataFrame和pandas.Series中,如何按行/列以及整体来计算满足特定条件的元素数。请参阅以下文章,了解如何提取符合条件的行。09_Pandas从多个条件(AND,OR,NOT)中提取行 另外,如果要为每一列计算唯一元素,请参见以下文章。15_Pandas计算元素的数量和频率(出现的次数)对以下内容进行具体的说明。满足特定条件的元素数量的计数流程计数pandas.DataFrame中的任何列多个条件原创 2021-02-07 14:36:27 · 36147 阅读 · 2 评论