Kaggle竞赛,初级入门,泰坦尼克号
一、训练数据探索
1、观察数据维度
import pandas as pd
import pandas_profiling
from autoviz.AutoViz_Class import AutoViz_Class
data=pd.read_csv('.\\train.csv')
维度:‘PassengerId’, ‘Survived’, ‘Pclass’, ‘Name’, ‘Sex’, ‘Age’, ‘SibSp’,
‘Parch’, ‘Ticket’, ‘Fare’, ‘Cabin’, ‘Embarked’
survived,即为y变量,0为死,1为生。
report=pandas_profiling.ProfileReport(data)
report.to_file(output_file=(".\\census_report.html"))
#自动生成一段数据分析视图
如图所示
还可以显示各个字段的情况例如这个PassengerId,乘客id,