数据集下载:Logistic Regression - Heart Disease Prediction
一、Pandas进行数据处理
1、读取csv
import numpy as np # linear algebra
import pandas as pd
heart_data = pd.read_csv('kaggle/framingham_heart_disease.csv')
2、预览数据
# 默认显示从头开始的5行数据
print(heart_data.head())
# 自定义显示多少行数据
print(heart_data.head(1))
# 打印一下末尾的数据,默认5行
print(heart_data.tail())
# 自定义行数
print(heart_data.tail(5))
3、丢弃指定列/行
#删除0、1、2...中的某行
heart_data1 = heart_data.drop([2])
#删掉列
heart_data2 = heart_data.drop(['currentSmoker','education'], axis = 'columns')
#将所有含有nan项的row删除
heart_data3 = heart_data.dropna()
#将在列的方向上三个为NaN的项删除
heart_data4 = heart_data.dropna(axis=1,thresh=3)
#将全部项都是nan的row删除
heart_data5 = heart_data.dropna(how='ALL')
4、按标题名读取数据
# 直接.values出来的是list[array],所以利用索引[0]可以读取array:age_data
age_data = [heart_data["age"].values][0]
# 单个数据
print(hist_data[1])
5、检查数据是否有缺失
print(heart_data.isnull().sum())
6、显示特定列的缺失
series = heart_data['cigsPerDay'].isnull()
print(heart_data[series])
7、填补缺失
cigs = heart_data['cigsPerDay']
cigs.fillna(99, inplace = True)
# 此时没有NA了
print(heart_data.isnull().sum())