机器学习分析步骤:提出问题
2. 理解数据导入数据
采集数据
查看数据集信息
3. 数据清洗数据预处理
特征工程
4. 构建模型
5. 模型评估
6. 方案实施提交结果
报告撰写
一、提出问题
什么样的人可以在泰坦尼克号事故中生存下来
二、理解数据
① 导入数据(pd.read_csv)
先导入处理数据包Numpy和Pandas导入文件的时候注意应该用左划线(“/”),而在文件中复制路径时是右划线D:\BaiduYunDownload
路径可以用双引号,也可以用单引号,结果是一样的
这里将泰坦尼克号数据中的train训练数据和test测试数据导入,测试数据集比训练数据集少1列,缺少的这些数据由接下来的机器学习进行计算。
② 数据合并(append)
因为train数据和test数据是分开进行导入的,为了方便进行数据清洗,先将两种数据进行合并
#数据1. append(#数据2,ignore_index=True)ignore_index默认为False,默认情况下会把添加的数据的索引行号保留下来,若ignore_index=Ture则会对所有的行重新自动建立索引。
③ 查看数据集信息(head()、describe()、info())
Age:年龄; Cabin:客舱号; Embarked&#