一般Solution的七个阶段
- 问题或问题定义
- 获取训练和测试数据
- 整理、准备、清理数据
- 分析、识别模式并探索数据
- 建模,预测并解决问题
- 可视化、报告和呈现问题解决步骤和最终解决方案
- 提供或提交结果
数据科学解决方案解决的七个主要目标
分类 ,我们可能想对样品进行分类。我们还可能希望了解不同类与解决方案目标之间的含义或相关性。
关联,可以根据训练数据集中的可用特性来处理问题。数据集中的哪些功能对我们的解决方案目标有重大贡献?从统计学上讲,特征和解决目标之间是否存在相关性?随着特性值的改变,解决方案状态也会改变,反之亦然?这可以测试给定数据集中的数字和分类特征。我们还可能希望确定除后续目标和工作流阶段的生存期之外的其他特性之间的相关性。关联某些特性可能有助于创建、完成或更正特性。
转换 ,对于建模阶段,需要准备数据。根据模型算法的选择,可能需要将所有特征转换为数值等效值。例如,将文本分类值转换为数值。
补充,数据准备还可能要求我们估计功能中的任何缺失值。当没有丢失的值时,模型算法可能工作得最好。
校正 ,我们还可以分析给定的训练数据集中的错误或可能的固有值,并尝试更正这些值或排除包含错误的样本。一种方法是检测样本或特性中的任何异常值。如果一个特性不是分析的原因,或者可能会明显地扭曲结果,那么我们也可以完全放弃它。
创建,我们可以基于现有的特性或一组特性创建新特性,从而使新特性遵循相关性、转换和完整性目标吗?
制图 ,如何根据数据的性质和解决方案目标选择正确的可视化图和图表。
# data analysis and wrangling
import pandas as pd
import numpy as np
import random as rnd
# visualization
import seaborn as sns
import matplotlib.pyplot as plt
%matplotlib inline
# machine learning
from sklearn.linear_model import LogisticRegression
from sklearn.svm import SVC, LinearSVC
from sklearn.ensemble import RandomForestClassifier
from sklearn.neighbors import KNeighborsClassifier
from sklearn.naive_bayes import GaussianNB
from sklearn.linear_model import Perceptron
from sklearn.linear_model import SGDClassifier
from sklearn.tree import DecisionTreeClassifier
train_df = pd.read_csv('../input/titanic/train.csv')
test_df = pd.read_csv('../input/titanic/test.csv')
combine = [train_df, test_df]
查看数据标签
print(train_df.columns.values)
查看前几行数据
train_df.head()
train_df.tail()
查看数值型数据
train_df.describe()
查看object数据
train_df.describe(include=['O'])
查看Pclass、SibSp、Parch与Survived之间关系
train_df[['Pclass', 'Survived']].groupby(['Pclass'], as_index=False).mean().sort_values(by='Survived', ascending=False)
train_df[["SibSp", "Survived"]].groupby(['SibSp'], as_index=False).mean().sort_values(by='Survived', ascending=False)
train_df[["Parch", "Survived"]].groupby(['Parch'], as_index=False).mean().sort_values(by='Survived', ascending=False)
画图
<