数据科学库 2、pandas入门(1)

1、pandas

(1)pandas简介

pandas是python里分析结构化数据的工具集
基础是 numpy:高性能矩阵运算
图形库 matplotlib:提供数据可视化

(2)pandas能做什么

结构化数据分析
数据挖掘

(3)ipython简介

在这里插入图片描述

(4)python与ipython命令行的区别

# 显示数据可读性强
import numpy as np
from numpy.random import randn
data = {i:randn(i) for i in range(6)}
data
Out[5]: 
{0: array([], dtype=float64),
 1: array([-0.27834191]),
 2: array([-0.39810411,  1.51621473]),
 3: array([ 0.04883958, -0.22957738, -0.40316668]),
 4: array([-0.01699721, -1.09906238, -1.45676746, -0.90384311]),
 5: array([ 0.41730456, -0.91479429, -0.90714327,  1.37142739,  0.17569011])}
 
 # 按Tab键命令补全
 
 # shell命令
 # 显示当前目录
pwd    
Out[6]: 'D:\\PycharmProjects\\MyTest'
# 切换目录
cd D:\\PycharmProjects
D:\PycharmProjects


# 魔术命令
%run 命令
%timeit 命令
%quickref 命令 显示快速参考文档
%magic显示魔术命令列表和文档

2、pandas核心数据结构创建

(1)series创建

series是一维带标签的数组,数组里可以放任意的数据(整数,浮点数,字符串,Python Object)
Series数据结构表示一个行或一个列的数据,有一个默认的数据索引
基本个数:s=pd.Series(data ,index=index)

其中,index是一个列表,用来作为数据的标签。data可以是不同的数据类型:Python字典,ndarray对象,一个标量值
在这里插入图片描述

(2)DataFrame创建

DataFrame是二维带行标签和列标签的数组,可以是Excel表格、SQL数据库的表格、Series对象字典。它是Pandas中最常用的数据结构

基本格式:df=pd.DataFrame(data,index=index,columns=columns)
其中,index是行标签,columns是列标签,data可以为:一维numpy数组、list和Series构成的字典,二维numpy数组,一个Series,DataFrame对象

通过传递带有日期时间索引和带标签的列的numpy数组来创建二维数组

在这里插入图片描述
在这里插入图片描述

通过传递字典对象来创建二维数组

在这里插入图片描述

结果的列DataFrame具有不同的 dtype

在这里插入图片描述

3、查看数据

(1)head查看框架顶部tail查看框架底部行

在这里插入图片描述

(2)显示行索引与列索引

在这里插入图片描述

(3)显示值—numpy数组

在这里插入图片描述
NumPy数组对整个数组具有一个dtype,而pandas DataFrames每列具有一个dtype;DataFrames有多个dtypes时,DataFrames.to_numpy相对昂贵。

在这里插入图片描述

(4)显示数据整体情况—显示数据的快速统计摘要

在这里插入图片描述

(5)数据转置

在这里插入图片描述

(6)通过列标签来排序(默认升序)axis=1

在这里插入图片描述

(7)通过行标签来排序axis=0

在这里插入图片描述

(8)按值排序

在这里插入图片描述

(9)查看某一列数据

在这里插入图片描述

4、选择数据

(1)选择一个单列,产生一个Series,等于df.A

在这里插入图片描述

(2)选择行

对行进行切片

在这里插入图片描述

行标签

在这里插入图片描述

比较

效率比较高 因为不用判断是位置还是标签

(3)通过标签在多轴(行列)上选择

在这里插入图片描述

(4)减少访问对象尺寸

在这里插入图片描述

(5)获得值

在这里插入图片描述

(6)快速访问值—插入原生数据结构

在这里插入图片描述

(7)通过位置来选择、

选择某行

在这里插入图片描述

选择某行与某列

在这里插入图片描述

选择某几列所有的行

d'f

访问特定元素

在这里插入图片描述

快速访问特定元素

在这里插入图片描述

时间对比

在这里插入图片描述

(8)不二索引

1.使用单列的值选择数据
2.从满足布尔条件的DataFrame中选择值
在这里插入图片描述

使用isin过滤方法

在这里插入图片描述

(9)修改数据

修改某个元素

在这里插入图片描述

直接修改一列或一行元素

在这里插入图片描述

(10)copy

在这里插入图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值