模型搭建和评估
- 【思考】这些库的作用是什么呢?:
pandas
: 用于数据分析、数据挖掘、数据清洗
matplotlib
: 用于数据可视化
seaborn
: 基于matplotlib
的统计图制作库
Ipython.display.Image
:直接使用IPython.display
类的Image
打开图片, 再display
- 清洗后的数据比原始数据缺少了姓名和船票信息,这些数据与存活概率无相关性
- 监督学习:训练样本有标记
无监督学习:训练样本无标记 - 【思考】划分数据集的方法有哪些?:
留出法、交叉验证、自助法 - 【思考】为什么使用分层抽样,这样的好处有什么?:
样本的代表性比较好,抽样误差比较小 train_test_split()
的参数:
stratify = y
按照y
中的比例分配,用于处理不均衡的数据集
random_state
默认为None
,设置为整数时可以使每次生成的数据都相同- 【思考】什么情况下切割数据集的时候不用进行随机选取?:
数据样本足够大 - 【思考】为什么线性模型可以进行分类任务,背后是怎么的数学关系
【思考】对于多分类问题,线性模型是怎么进行分类的
暂缓 predict_proba
返回对于各个类别的预测概率precision
P = T P ( T P + F P ) P = \frac{TP}{(TP+FP)} P=(TP+FP)TP
recall
R = T P ( T P + F N ) R = \frac{TP}{(TP+FN)} R=(TP+FN)TP- 【思考】k折越多的情况下会带来什么样的影响?:
随着K值的不断升高,单一模型评估时的方差逐渐加大而偏差减小。但从总体模型角度来看,反而是偏差升高了而方差降低了。