Datawhale-动手学数据分析-Task5

模型搭建和评估

  1. 【思考】这些库的作用是什么呢?:
    pandas: 用于数据分析、数据挖掘、数据清洗
    matplotlib: 用于数据可视化
    seaborn: 基于 matplotlib 的统计图制作库
    Ipython.display.Image:直接使用 IPython.display 类的 Image 打开图片, 再 display
  2. 清洗后的数据比原始数据缺少了姓名和船票信息,这些数据与存活概率无相关性
  3. 监督学习:训练样本有标记
    无监督学习:训练样本无标记
  4. 【思考】划分数据集的方法有哪些?:
    留出法、交叉验证、自助法
  5. 【思考】为什么使用分层抽样,这样的好处有什么?:
    样本的代表性比较好,抽样误差比较小
  6. train_test_split() 的参数:
    stratify = y 按照 y 中的比例分配,用于处理不均衡的数据集
    random_state 默认为 None ,设置为整数时可以使每次生成的数据都相同
  7. 【思考】什么情况下切割数据集的时候不用进行随机选取?:
    数据样本足够大
  8. 【思考】为什么线性模型可以进行分类任务,背后是怎么的数学关系
    【思考】对于多分类问题,线性模型是怎么进行分类的
    暂缓
  9. predict_proba 返回对于各个类别的预测概率
  10. precision P = T P ( T P + F P ) P = \frac{TP}{(TP+FP)} P=(TP+FP)TP
    recall R = T P ( T P + F N ) R = \frac{TP}{(TP+FN)} R=(TP+FN)TP
  11. 【思考】k折越多的情况下会带来什么样的影响?:
    随着K值的不断升高,单一模型评估时的方差逐渐加大而偏差减小。但从总体模型角度来看,反而是偏差升高了而方差降低了。
  • 2
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值