python 加载数据集_Python数据分析1,python

python数据分析pandas库

前言

为啥要用python中的pandas库进行数据分析,用excel不可以吗?不可以,excel处理上万条数据时通常会死机或者出错,python不会有这种问题。相信鲤鱼学长,在学习乃至日后工作中,pandas库将会风靡相当长一段时间。

提示:以下是本篇文章正文内容,下面案例可供参考

1.1pandas是什么?

示例:pandas 是基于NumPy 的一种工具,该工具是为了解决数据分析任务而创建的。

1.2加载数据集

1.引入库

代码如下(示例):

import pandas

import pandas as pd#这里是给pandas函数取了一个名字:pd,后面调用时写pd就行。

2.读入数据

代码如下(示例):

df=pd.read_csv(r'C:\Users\WLY\Desktop\python数据分析(活用pandas库)\pandas_for_everyone-master\data\gapminder.tsv',sep='\t')

print(df.head())

1、默认情况下,read_csv函数会读取逗号分隔文件。

2、这里将sep参数设置为\t,是指明使用制表符分隔的意思。

3、调用head()方法,只显示前5行数据。

运行结果如下:

country continent year lifeExp pop gdpPercap

0 Afghanistan Asia 1952 28.801 8425333 779.445314

1 Afghanistan Asia 1957 30.332 9240934 820.853030

2 Afghanistan Asia 1962 31.997 10267083 853.100710

3 Afghanistan Asia 1967 34.020 11537966 836.197138

4 Afghanistan Asia 1972 36.088 13079460 739.981106

3.检查返回的是否是DataFrame

df=pd.read_csv(r'C:\Users\WLY\Desktop\python数据分析(活用pandas库)\pandas_for_everyone-master\data\gapminder.tsv',sep='\t')

print(type(df))

运行结果如下:

4.获取数据集的行数和列数

print(df.shape)

运行结果如下:

(1704, 6)

也就是说这个数据集有1704行,6列。

5.获取列名

print(df.columns)

运行结果如下:

Index(['country', 'continent', 'year', 'lifeExp', 'pop', 'gdpPercap'], dtype='object')

这里可以看到,列名的类型是object。

6.获取每列的dtype(类型)

print(df.dtypes)

运行结果如下:

country object

continent object

year int64

lifeExp float64

pop int64

gdpPercap float64

dtype: object

pandas类型

python类型

说明

object

string

最常用的数据类型

int64

int

整型

float64

float

带小数的数字

datatime64

datatime

python标准库里包含datatime,但是默认不加载,需要导入才能用

1.3查看列、行、单元格

1.3.1获取列子集

获取数据中的某列,比如获取country列。,这里将她保存到一个变量里。

country_df=df['country']

print(country_df.head())#显示前5行

print(country_df.tail())#显示后5行

运行结果如下:

#显示前5行

0 Afghanistan

1 Afghanistan

2 Afghanistan

3 Afghanistan

4 Afghanistan

Name: country, dtype: object

#显示后5行

1699 Zimbabwe

1700 Zimbabwe

1701 Zimbabwe

1702 Zimbabwe

1703 Zimbabwe

Name: country, dtype: object

通过列名获取多列。

subset=df[['country','continent','year']]

print(subset.head())

print(subset.tail())

运行结果如下:

country continent year

0 Afghanistan Asia 1952

1 Afghanistan Asia 1957

2 Afghanistan Asia 1962

3 Afghanistan Asia 1967

4 Afghanistan Asia 1972

country continent year

1699 Zimbabwe Africa 1987

1700 Zimbabwe Africa 1992

1701 Zimbabwe Africa 1997

1702 Zimbabwe Africa 2002

1703 Zimbabwe Africa 2007

我用的python版本是python3.7 64位,pycharm是2017.1 64位。大家根据自己的电脑来安装python和编译器。

数据集下载链接:

链接:https://pan.baidu.com/s/1CwmLTn70bRlyWrSQXsDeyA

提取码:68ob

CSDNpython数据分析1代码下载:、

链接:https://pan.baidu.com/s/1eEzlkcK0-Ri7JAbRcvYoiA

提取码:8ijc

注意:

1、这里也可以选择不把结果打印出来。

2、python里路径的写法,我这(r’xxx’)是一种,不同的版本,不同的电脑不一样,当你检查代码还是报错的话,就搜索那个错误就可以找到不少解决方法。

有啥问题欢迎童鞋们留言!

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值