Python Pandas数据分析

最新推荐文章于 2024-04-29 11:22:23 发布

coding-piggy

最新推荐文章于 2024-04-29 11:22:23 发布

阅读量295

点赞数

分类专栏： Python

本文链接：https://blog.csdn.net/qq_21288703/article/details/109024239

版权

Python 专栏收录该内容

13 篇文章 1 订阅

订阅专栏

数据集下载：Logistic Regression - Heart Disease Prediction

一、Pandas进行数据处理

1、读取csv

import numpy as np # linear algebra
import pandas as pd

heart_data = pd.read_csv('kaggle/framingham_heart_disease.csv')

2、预览数据

# 默认显示从头开始的5行数据
print(heart_data.head())
# 自定义显示多少行数据
print(heart_data.head(1))
# 打印一下末尾的数据，默认5行
print(heart_data.tail())
# 自定义行数
print(heart_data.tail(5))

在这里插入图片描述

3、丢弃指定列/行

#删除0、1、2...中的某行
heart_data1 = heart_data.drop([2])
#删掉列
heart_data2 = heart_data.drop(['currentSmoker','education'], axis = 'columns')
#将所有含有nan项的row删除
heart_data3 = heart_data.dropna()
#将在列的方向上三个为NaN的项删除  
heart_data4 = heart_data.dropna(axis=1,thresh=3)  
#将全部项都是nan的row删除
heart_data5 = heart_data.dropna(how='ALL')

4、按标题名读取数据

# 直接.values出来的是list[array]，所以利用索引[0]可以读取array：age_data 
age_data = [heart_data["age"].values][0]
# 单个数据
print(hist_data[1])

5、检查数据是否有缺失

print(heart_data.isnull().sum())

6、显示特定列的缺失

series = heart_data['cigsPerDay'].isnull()
print(heart_data[series])

7、填补缺失

cigs = heart_data['cigsPerDay']
cigs.fillna(99, inplace = True)
# 此时没有NA了
print(heart_data.isnull().sum())

coding-piggy

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录