Python Pandas数据分析

数据集下载:Logistic Regression - Heart Disease Prediction

一、Pandas进行数据处理

1、读取csv
import numpy as np # linear algebra
import pandas as pd

heart_data = pd.read_csv('kaggle/framingham_heart_disease.csv')
2、预览数据
# 默认显示从头开始的5行数据
print(heart_data.head())
# 自定义显示多少行数据
print(heart_data.head(1))
# 打印一下末尾的数据,默认5行
print(heart_data.tail())
# 自定义行数
print(heart_data.tail(5))

在这里插入图片描述

3、丢弃指定列/行
#删除0、1、2...中的某行
heart_data1 = heart_data.drop([2])
#删掉列
heart_data2 = heart_data.drop(['currentSmoker','education'], axis = 'columns')
#将所有含有nan项的row删除
heart_data3 = heart_data.dropna()
#将在列的方向上三个为NaN的项删除  
heart_data4 = heart_data.dropna(axis=1,thresh=3)  
#将全部项都是nan的row删除
heart_data5 = heart_data.dropna(how='ALL')
4、按标题名读取数据
# 直接.values出来的是list[array],所以利用索引[0]可以读取array:age_data 
age_data = [heart_data["age"].values][0]
# 单个数据
print(hist_data[1])
5、检查数据是否有缺失
print(heart_data.isnull().sum())
6、显示特定列的缺失
series = heart_data['cigsPerDay'].isnull()
print(heart_data[series])
7、填补缺失
cigs = heart_data['cigsPerDay']
cigs.fillna(99, inplace = True)
# 此时没有NA了
print(heart_data.isnull().sum())
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值