泰坦尼克号乘客数据查验:
#导入panadas用于数据分析
import pandas as pd
#利用pandas的read_csv模块直接从互联网读入数据
titanic=pd.read_csv('http://biostat.mc.vanderbilt.edu/wiki/pub/Main/DataSets/titanic.txt')
#观察前几条数据,可以发现,数据种类各异,数值型、类别性,甚至还有缺失数据
#print(titanic.head())
使用pandas,数据都传入独有的dataframe格式(二维数据表格),直接使用info(),查看数据的统计特性 :
titanic.info()
特征选择
X=titanic[['pclass','age','sex']]
y=titanic['survived']
#对当前选择的特征进行探查
#X.info()