pandas入门及练习

最新推荐文章于 2024-10-06 07:39:55 发布

2301_81010915

最新推荐文章于 2024-10-06 07:39:55 发布

阅读量673

点赞数 17

文章标签： pandas python

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/2301_81010915/article/details/140616581

版权

首先通过下面资料对相关知识进行学习：

Joyful Pandas：https://inter.joyfulpandas.datawhale.club/Content/index.html

再通过数据分析的实战教学加深对pandas的理解（完成kaggle上泰坦尼克的任务，实战数据分析的全流程）：

涉及到

一.数据的载入和分析

#### 1.1.1 任务一：导入numpy和pandas

import pandas as pd

import numpy as np

#### 1.1.2 任务二：载入数据
(1) 使用相对路径载入数据

df=pd.read_csv('./train.csv')

(2) 使用绝对路径载入数据

df=pd.read_csv(r'C:\Users\min\Desktop\pandas入门\train.csv')

#### 1.1.3 任务三：每1000行为一个数据模块，逐块读取

chunker=pd.read_csv('./train.csv',chunksize=1000)

for i in chunker:

print(i)

#### 1.1.4 任务四：将表头改成中文，索引改为乘客ID [对于某些英文资料，我们可以通过翻译来更直观的熟悉我们的数据]
PassengerId => 乘客ID
Survived => 是否幸存
Pclass => 乘客等级(1/2/3等舱位)
Name => 乘客姓名
Sex => 性别
Age => 年龄
SibSp => 堂兄弟/妹个数
Parch => 父母与小孩个数
Ticket => 船票信息
Fare => 票价
Cabin => 客舱
Embarked => 登船港口

df=pd.read_csv('train.csv',names=['乘客ID','是否幸存','乘客等级(1/2/3等舱位)','乘客姓名','性别','年龄','堂兄弟/妹个数','父母与小孩个数','船票信息','票价','客舱','登船港口'],index_col='乘客ID',header=0)

### 1.2 初步观察
导入数据后，你可能要对数据的整体结构和样例进行概览，比如说，数据大小、有多少列，各列都是什么格式的，是否包含null等

#### 1.2.1 任务一：查看数据的基本信息

df.info()

#### 1.2.2 任务二：观察表格前10行的数据和后15行的数据

df.head(10)

df.tail(15)

#### 1.2.4 任务三：判断数据是否为空，为空的地方返回True，其余地方返回False

df.isnull().head(5)

#### 1.3.1 任务一：将你加载并做出改变的数据，在工作目录下保存为一个新文件train_chinese.csv

# 注意：不同的操作系统保存下来可能会有乱码。大家可以加入`encoding='GBK' 或者 ’encoding = ’utf-8‘‘`

df.to_csv('train_chinese.csv')

二，pandas基础

#### 1.4.1 任务一：pandas中有两个数据类型DateFrame和Series，通过查找简单了解他们。然后自己写一个关于这两个数据类型的小例子

import pandas as pd

import numpy as np # 引入环境

sdata = {'Ohio': 35000, 'Texas': 71000, 'Oregon': 16000, 'Utah': 5000}

example_1 = pd.Series(sdata)

example_1

data = {'state': ['Ohio', 'Ohio', 'Ohio', 'Nevada', 'Nevada', 'Nevada'],

'year': [2000, 2001, 2002, 2001, 2002, 2003],'pop': [1.5, 1.7, 3.6, 2.4, 2.9, 3.2]}

example_2 = pd.DataFrame(data)

example_2

#### 1.4.2 任务二：根据上节课的方法载入"train.csv"文件

df=pd.read_csv('./train.csv')

df

#### 1.4.3 任务三：查看DataFrame数据的每列的名称

df.columns

#### 1.4.4任务四：查看"Cabin"这列的所有值 [有多种方法]

df['Cabin']

#### 1.4.5 任务五：加载文件"test_1.csv"，然后对比"train.csv"，看看有哪些多出的列，然后将多出的列删除
经过我们的观察发现一个测试集test_1.csv有一列是多余的，我们需要将这个多余的列删去

test1 = pd.read_csv ( ' test_1.csv ' )

#### 1.4.6 任务六：将['PassengerId','Name','Age','Ticket']这几个列元素隐藏，只观察其他几个列元素

df.drop ( [ '乘客ID' , '姓名' , '年龄' , '票证' ] , axis = 1 )

### 1.5 筛选的逻辑

#### 1.5.1 任务一：我们以"Age"为筛选条件，显示年龄在10岁以下的乘客信息。

df[df['Age']<10]

#### 1.5.2 任务二：以"Age"为条件，将年龄在10岁以上和50岁以下的乘客信息显示出来，并将这个数据命名为midage

midage=df[(df['Age']<50)&(df['Age']>10)]

midage

#### 1.5.3 任务三：将midage的数据中第100行的"Pclass"和"Sex"的数据显示出来

midage.loc[[100],['Pclass','Sex']]

#### 1.5.4 任务四：使用loc方法将midage的数据中第100，105，108行的"Pclass"，"Name"和"Sex"的数据显示出来

midage.loc[[100,105,108],['Pclass','Name','Sex']]

#### 1.5.5 任务五：使用iloc方法将midage的数据中第100，105，108行的"Pclass"，"Name"和"Sex"的数据显示出来

midage.iloc[[100,105,108],[2,3,4]]

练习：

口袋妖怪数据集（excel文件pokemon）

数据说明

#代表全国图鉴编号，不同行存在相同数字则表示为该妖怪的不同状态

妖怪具有单属性和双属性两种，对于单属性的妖怪，Type 2为缺失值

Total, HP, Attack, Defense, Sp. Atk, Sp. Def, Speed分别代表种族值、体力、物攻、防御、特攻、特防、速度，其中种族值为后6项之和

要求

将列名更换为中文

分别存储单属性与双属性的妖怪存储为不同csv文件

对于#重复的妖怪只保留第一条记录并求出第一属性的种类数量和前三数量对应的种类

求第一属性和第二属性的组合种类

找出Total, HP, Attack, Defense, Sp. Atk, Sp. Def, Speed的最大值，平均值，方差，中位数

将HP超过100的替换为high，不足50的替换为low，否则设为mid

对total值进行降序排序并存储为csv文件

关注

17
点赞
踩
12

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

2301_81010915 CSDN认证博客专家 CSDN认证企业博客

码龄1年

5: 原创

186万+: 周排名

14万+: 总排名

1705: 访问

: 等级

87: 积分

26: 粉丝

37: 获赞

2: 评论

20: 收藏

私信

关注

热门文章

最新评论

python入门
CSDN-Ada助手: 恭喜你这篇博客进入【CSDN每天最佳新人】榜单，全部的排名请看 https://bbs.csdn.net/topics/619175994。

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。