Python的pandas库基础使用

一、Pandas库介绍

       Pandas 是基于NumPy 的一种工具,该工具是为解决数据分析任务而创建的。Pandas 纳入了大量库和一些标准的数据模型,提供了高效地操作大型数据集所需的工具。Pandas提供了大量能使我们快速便捷地处理数据的函数和方法。你很快就会发现,它是使Python成为强大而高效的数据分析环境的重要因素之一。

1.1数据类型

  • Series:一维数组,与Numpy中的一维array类似。二者与Python基本的数据结构List也很相近。Series如今能保存不同种数据类型,字符串、boolean值、数字等都能保存在Series中。
  • Time- Series:以时间为索引的Series。
  • DataFrame:二维的表格型数据结构。很多功能与R中的data.frame类似。可以将DataFrame理解为Series的容器。
  • Panel :三维的数组,可以理解为DataFrame的容器。
  • Panel4D:是像Panel一样的4维数据容器。
  • PanelND:拥有factory集合,可以创建像Panel4D一样N维命名容器的模块。

2.1 Pandas安装

     使用Python自带的pip工具下载Pandas:

pip install pandas #如果下载速度慢,可以换成下面代码
# pip install pandas  -i http://pypi.douban.com/simple/ numpy #使用国内豆瓣源下载,一般速度会更快
# pip install pandas -i http://pypi.douban.com/simple/--trusted-host pypi.douban.com #如果上一个提示不受信任,就使用这个,此参数“--trusted-host”表示信任

     Conda环境下载Pandas:

conda install pandas

2.2 Pandas导入

import pandas as pd  #导入pandas包

3.1 Pandas基本功能

1. 读取数据
data = pd.read_csv( my_file.csv )  
data = pd.read_csv( my_file.csv , sep= ; , encoding= latin-1 , nrows=1000, skiprows=[2,5])
####函数参数说明
# my_file.csv:你的文件路径
# sep: 分隔符,比如csv文件的分隔符是“;”,那么你就需要指定出它
# encoding:编码设置为  latin-1 来读取文件
# nrows:表示读取文件前500行数据
# skiprows:表示你在读取文件的时候会跳过第 2 行和第 5 行


## 常用的文件类型
# excel: read_excel
# csv: read_csv
2. 写数据
data.to_csv( my_new_file.csv , index=None)
###参数说明
# my_new_file.csv:文件保存位置
# index :是否为保存的文件添加索引
####常保存类型
# csv: data.to_csv
# excel: data.to_excel
3.检查数据
data.describe()  #给出数据的行数和列数
4.查看数据
data.head(5) #查看数据前5行数据,当数据量大时候好使
data.loc[13] #查看数据第13行
data.tail() #查看数据最后一行
data.loc[8, column_name] #查看数据第八行column_name列的值
data.loc[range(3,7)] #等效于data.loc[3,4,5,6](左闭右开)  查看数据第3到6行
5.逻辑运算
data[data[ column_1 ]== french ]   #打印出数据中所有column_1列值为french的行
data[(data[ column_1 ]== french ) & (data[ year_born ]==1990)] 
#打印出数据中所有column_1列值为french且year_born列值为1990的行
data[(data[ column_1 ]== french ) & (data[ year_born ]==1990) & ~(data[ city ]== London )]
# &:and   ~:not  |:or
data[data[ column_1 ].isin([ french ,  english ])]  #多个or同时时候可以考虑用.isin()函数代替
6.数据值统计
data[ column_1 ].value_counts()

数据展示:
在这里插入图片描述
使用.value_counts()返回的结果
在这里插入图片描述

Pandas库是Python语言处理数据的重要库之一,整理了一些最基本的使用方法以供学习。

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

Lancet、

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值