pandas
爱吃肉爱睡觉的Esther
这个作者很懒,什么都没留下…
展开
-
第六章 连接
In [1]: import numpy as npIn [2]: import pandas as pd一、关系型连接1.连接的基本概念把两张相关的表按照某一个或某一组键连接起来是一种常见操作,例如学生期末考试各个科目的成绩表按照 姓名 和 班级 连接成总的成绩表,又例如对企业员工的各类信息表按照 员工ID号 进行连接汇总。由此可以看出,在关系型连接中, 键 是十分重要的,往往用 on 参数表示。另一个重要的要素是连接的形式。在 pandas 中的关系型连接函数 merge 和 join原创 2020-12-29 22:14:21 · 175 阅读 · 0 评论 -
第五章 变形
In [1]: import numpy as npIn [2]: import pandas as pd一、长宽表的变形什么是长表?什么是宽表?这个概念是对于某一个特征而言的。例如:一个表中把性别存储在某一个列中,那么它就是关于性别的长表;如果把性别作为列名,列中的元素是某一其他的相关特征数值,那么这个表是关于性别的宽表。下面的两张表就分别是关于性别的长表和宽表:In [3]: pd.DataFrame({'Gender':['F','F','M','M'], ...:原创 2020-12-27 19:04:31 · 94 阅读 · 0 评论 -
第四章 分组
In [1]: import numpy as npIn [2]: import pandas as pd一、分组模式及其对象1.分组的一般模式分组操作在日常生活中使用极其广泛,例如:依据 性别 分组,统计全国人口 寿命 的 平均值依据 季节 分组,对每一个季节的 温度 进行 组内标准化依据 班级 分组,筛选出组内 数学分数 的 平均值超过80分的班级从上述的几个例子中不难看出,想要实现分组操作,必须明确三个要素:分组依据 、 数据来源 、 操作及其返回结果 。同时从充分性的角度来说原创 2020-12-25 22:39:14 · 127 阅读 · 0 评论 -
第三章 索引
In [1]: import numpy as npIn [2]: import pandas as pd一、索引器表的列索引列索引是最常见的索引形式,一般通过 [] 来实现。通过 [列名] 可以从 DataFrame 中取出相应的列,返回值为 Series ,例如从表中取出姓名一列:In [3]: df = pd.read_csv('data/learn_pandas.csv', ...: usecols = ['School', 'Grade',原创 2020-12-22 22:18:28 · 136 阅读 · 0 评论 -
第二章 pandas基础
In [1]: import numpy as npIn [2]: import pandas as pd在开始学习前,请保证 pandas 的版本号不低于如下所示的版本,否则请务必升级!请确认已经安装了 xlrd, xlwt, openpyxl 这三个包,其中xlrd版本不得高于 2.0.0 。In [3]: pd.__version__Out[3]: '1.1.5'一、文件的读取和写入文件读取pandas 可以读取的文件格式有很多,这里主要介绍读取 csv, excel, txt原创 2020-12-19 21:04:53 · 203 阅读 · 1 评论 -
Pandas 教程(下)综合练习
一、端午节的淘宝粽子交易(1) 请删除最后一列为缺失值的行,并求所有在杭州发货的商品单价均值。df_1 = pd.read_csv('../data/端午粽子数据.csv')df_1.head()# 结果可以看出有很多脏数据df_1.info()<class 'pandas.core.frame.DataFrame'>RangeIndex: 4403 entries, 0 to 4402Data columns (total 5 columns): # Column原创 2020-07-01 21:37:10 · 268 阅读 · 0 评论 -
第9章 时序数据
import pandas as pdimport numpy as np一、时序的创建1. 四类时间变量现在理解可能关于③和④有些困惑,后面会作出一些说明2. 时间点的创建(a)to_datetime方法Pandas在时间点建立的输入格式规定上给了很大的自由度,下面的语句都能正确建立同一时间点pd.to_datetime('2020.1.1')pd.to_datetime('2020 1.1')pd.to_datetime('2020 1 1')pd.to_datetime('原创 2020-06-29 19:53:36 · 444 阅读 · 0 评论 -
第8章 分类数据
import pandas as pdimport numpy as npdf = pd.read_csv('data/table.csv')df.head()一、category的创建及其性质1. 分类变量的创建(a)用Series创建pd.Series(["a", "b", "c", "a"], dtype="category")0 a1 b2 c3 adtype: categoryCategories (3, object): [a, b, c]原创 2020-06-27 19:36:23 · 178 阅读 · 0 评论 -
第7章 文本数据
import pandas as pdimport numpy as np一、string类型的性质1.string与object的区别string类型和object不同之处有三:① 字符存取方法(string accessor methods,如str.count)会返回相应数据的Nullable类型,而object会随缺失值的存在而改变返回类型② 某些Series方法不能在string上使用,例如: Series.str.decode(),因为存储的是字符串而不是字节③ string类型原创 2020-06-26 22:30:24 · 153 阅读 · 0 评论 -
第6章 缺失数据
在接下来的两章中,会接触到数据预处理中比较麻烦的类型,即缺失数据和文本数据(尤其是混杂型文本)Pandas在步入1.0后,对数据类型也做出了新的尝试,尤其是Nullable类型和String类型,了解这些可能在未来成为主流的新特性是必要的import pandas as pdimport numpy as npdf = pd.read_csv('data/table_missing.csv')df.head()一、缺失观测及其类型了解缺失信息(a)isna和notna方法对Serie原创 2020-06-22 22:42:56 · 313 阅读 · 0 评论