Python数据分析：为什么要使用pandas库进行数据处理？-CSDN博客

本文链接：https://blog.csdn.net/weixin_36149538/article/details/114913543

python数据分析pandas库

前言

为啥要用python中的pandas库进行数据分析，用excel不可以吗？不可以，excel处理上万条数据时通常会死机或者出错，python不会有这种问题。相信鲤鱼学长，在学习乃至日后工作中，pandas库将会风靡相当长一段时间。

提示：以下是本篇文章正文内容，下面案例可供参考

1.1pandas是什么？

示例：pandas 是基于NumPy 的一种工具，该工具是为了解决数据分析任务而创建的。

1.2加载数据集

1.引入库

代码如下(示例)：

import pandas

import pandas as pd#这里是给pandas函数取了一个名字：pd，后面调用时写pd就行。

2.读入数据

代码如下(示例)：

df=pd.read_csv(r'C:\Users\WLY\Desktop\python数据分析(活用pandas库)\pandas_for_everyone-master\data\gapminder.tsv',sep='\t')

print(df.head())

1、默认情况下，read_csv函数会读取逗号分隔文件。

2、这里将sep参数设置为\t，是指明使用制表符分隔的意思。

3、调用head()方法，只显示前5行数据。

运行结果如下：

country continent year lifeExp pop gdpPercap

0 Afghanistan Asia 1952 28.801 8425333 779.445314

1 Afghanistan Asia 1957 30.332 9240934 820.853030

2 Afghanistan Asia 1962 31.997 10267083 853.100710

3 Afghanistan Asia 1967 34.020 11537966 836.197138

4 Afghanistan Asia 1972 36.088 13079460 739.981106

3.检查返回的是否是DataFrame

df=pd.read_csv(r'C:\Users\WLY\Desktop\python数据分析(活用pandas库)\pandas_for_everyone-master\data\gapminder.tsv',sep='\t')

print(type(df))

运行结果如下：

4.获取数据集的行数和列数

print(df.shape)

运行结果如下：

(1704, 6)

也就是说这个数据集有1704行，6列。

5.获取列名

print(df.columns)

运行结果如下：

Index(['country', 'continent', 'year', 'lifeExp', 'pop', 'gdpPercap'], dtype='object')

这里可以看到，列名的类型是object。

6.获取每列的dtype(类型)

print(df.dtypes)

运行结果如下：

country object

continent object

year int64

lifeExp float64

pop int64

gdpPercap float64

dtype: object

pandas类型

python类型

说明

object

string

最常用的数据类型

int64

int

整型

float64

float

带小数的数字

datatime64

datatime

python标准库里包含datatime，但是默认不加载，需要导入才能用

1.3查看列、行、单元格

1.3.1获取列子集

获取数据中的某列，比如获取country列。，这里将她保存到一个变量里。

country_df=df['country']

print(country_df.head())#显示前5行

print(country_df.tail())#显示后5行

运行结果如下：

#显示前5行

0 Afghanistan

1 Afghanistan

2 Afghanistan

3 Afghanistan

4 Afghanistan

Name: country, dtype: object

#显示后5行

1699 Zimbabwe

1700 Zimbabwe

1701 Zimbabwe

1702 Zimbabwe

1703 Zimbabwe

Name: country, dtype: object

通过列名获取多列。

subset=df[['country','continent','year']]

print(subset.head())

print(subset.tail())

运行结果如下：

country continent year

0 Afghanistan Asia 1952

1 Afghanistan Asia 1957

2 Afghanistan Asia 1962

3 Afghanistan Asia 1967

4 Afghanistan Asia 1972

country continent year

1699 Zimbabwe Africa 1987

1700 Zimbabwe Africa 1992

1701 Zimbabwe Africa 1997

1702 Zimbabwe Africa 2002

1703 Zimbabwe Africa 2007

我用的python版本是python3.7 64位，pycharm是2017.1 64位。大家根据自己的电脑来安装python和编译器。

数据集下载链接：

链接：https://pan.baidu.com/s/1CwmLTn70bRlyWrSQXsDeyA

提取码：68ob

CSDNpython数据分析1代码下载：、

链接：https://pan.baidu.com/s/1eEzlkcK0-Ri7JAbRcvYoiA

提取码：8ijc

注意：

1、这里也可以选择不把结果打印出来。

2、python里路径的写法，我这(r’xxx’)是一种，不同的版本，不同的电脑不一样，当你检查代码还是报错的话，就搜索那个错误就可以找到不少解决方法。

有啥问题欢迎童鞋们留言！

python 加载数据集_Python数据分析1,python