Pandas笔记
文章平均质量分 81
记录Pandas的适用方法
Laurence
架构师,著有《大数据平台架构与原型实现:数据中台建设实战》一书,对大数据、云计算、数据湖、数据中台、企业级应用架构、域驱动设计有丰富的实践经验。
展开
-
NumPy一维数组、二维数组与Pandas的Series、DataFrame行列结构和横纵方向的统一说明
一维数组本身是没有“横向”和“纵向”概念的,站在一维数组里,我们只能分清是“向前”还是“向后”,即:在任何一个单一维度里,“方向”只有“正向”和“反向”之分。尽管我们可以简单地认为NumPy的二维数组对应Pandas的DataFrame,但是NumPy二维数组中的一维数组绝不对应DataFrame的Series,前者是一“行”数据,后者则是一“列”数据。横向为行,纵向位列,人们非常习惯书写和阅读这种表达形式的二维数据。NumPy和Pandas不会设计与人们使用习惯向左的数据结构原创 2023-01-10 12:18:58 · 2361 阅读 · 0 评论 -
如何理解并记忆DataFrame中的Axis参数
当我们遇到有axis参数的方法时,脑子里的第一反应应该是:这个方法一定是沿着某一方向进行某种“聚合”或者“过滤”操作。在此场景下,Axis参数就是用来设定操作方向的:垂直方向还是水平方向。原创 2022-12-28 15:28:47 · 1494 阅读 · 2 评论 -
抽样偏差(Sampling Bias)与 分层抽样(Stratified Sampling)
通常最基本的采样手段是:随机抽样,但是在很多场景下,随机抽样是有问题的,举一个简单的例子:如果现在要发起一个啤酒品牌知名度的调查问卷,我们能使用随机抽样来筛选参与调查的候选人吗?答案是否定的,因为性别在这个调研的目标人群中发挥着显著的影响,不能进行随机抽样,否则抽样数据将“严重失真”,并不能反映真实的数据分布,此时应该性别进行分层抽样,增大男性在抽样中的比例。进行分层采样的前提是目标属性往往是类别化的离散值,对于那些连续的数值型属性,通常需要进行一下“预处理”:把连续的数值型数据转换为离散的类别型数据。原创 2022-12-26 17:16:02 · 724 阅读 · 0 评论 -
Pandas笔记 · DataFrame数据结构与构建方法
文章目录DataFrame数据结构如何构建DataFrame按行构建使用Dictionary按行构建使用List按行构建按列构建使用Dictionary按列构建使用List按列构建使用set_index重置索引DataFrame数据结构DataFrame的数据结构与一张数据表是非常相似的,上图对于DataFrame的解释已经一目了然了。唯一需要特别解释一下的是Index。在DF中,如不特别指定,DF总是默认为每一行数据生成Index,这个Index就是从0开始的自增索引,和数组中的Index是一样的。原创 2021-12-03 16:30:05 · 2455 阅读 · 0 评论 -
Pandas笔记 · DataFrame.loc()和DataFrame.iloc()
本文将介绍 DataFrame.loc()和DataFrame.iloc()的各项基本操作。在介绍DataFrame的数据结构时,我们解释过label和position两个概念,这两个概念和loc()与iloc()两个操作息息相关。所以,在介绍这两个操作之前,我们再简单复习一下label和position:label: 对DataFrame的列或行(Index)的名称统称为label position: 对DataFrame的列或行(Index)的排序位置(0,1,2,…)统称为position 相应地:l原创 2021-12-08 14:58:13 · 17309 阅读 · 4 评论 -
Pandas笔记 · DataFrame常用API参考
文章目录导入数据导出数据创建测试对象查看、检查数据数据选取数据清理数据处理:Filter、Sort和GroupBy数据合并数据统计import pandas as pdimport numpy as np导入数据pd.read_csv(filename):从CSV文件导入数据pd.read_table(filename):从限定分隔符的文本文件导入数据pd.read_excel(filename):从Excel文件导入数据pd.read_sql(query, connection_objec转载 2021-12-03 13:30:05 · 1435 阅读 · 0 评论