pandas是Python处理数据的一个数据分析处理库,这里的代码我都是在anaconda的Jupyter Notebook上运行的,这是个交互式平台可以立马看到结果(很方便),当然也可以在pycharm上运行,如果没有安装运行的环境的可以参考以下博文
http://blog.csdn.net/a_hui_tai_lang/article/details/78689559
废话少说,一切尽在代码之中
代码已经上传到我的GitHub,https://github.com/LoyalWilliams/machinelearning
# coding: utf-8
# In[1]:
import numpy as np
import pandas as pd
titanic_survival=pd.read_csv("titanic_train.csv")
titanic_survival.head()
# In[2]:
#查看一些基本的信息,比如Age这一列
age=titanic_survival["Age"]
# print(age.loc[0:10])
age_is_null=pd.isnull(age)
# print(age_is_null)
age_null_true=age[age_is_null]
# print(age_null_true)
age_null_count=len(age_null_true)
print(age_null_count)
# In[3]:
#如果数据中含有空值,则无法求出平均值等统计指标,结果为nan
mean_age=sum(titanic_survival["Age"])/len(titanic_survival["Age"])
print(mean_age)
# In[4]: