机器学习入门-新手常见问题记录

0,机器学习项目的5步: 定义问题(营销/运营/维护等)—>收集数据(A/B测试)和预处理/–>(选择算法和确定模型—>训练模型—>评估并优化模型),很多时候,后面3步需要不断的反复循环的,甚至有时候后面四步 包含数据的处理特别是涉及特征工程话,也需要反复。在机器学习数据集方面,针对复杂数据集,可在原数据集外通过pandas 和numpy单独构建训练集和测试集(例如RMF数据集的构建)

1.kaggle 初次使用vgg19 会因为网络原因导致下载不下来,需要在 setting页面打开 internet选项
2. 普通的 CNN,和VGG19使用的Y的特征数量不同。在迁移学习章节中,要注意。https://blog.csdn.net/qq_39938666/article/details/93424418。

可以更改Y的特征数量
下面展示一些 内联代码片

num_classes = 10 && y_labels = to_categorical(_ylabels, num_classes=num_classes)

3.optimize.Adma不可用时,用tf.keras.optimize.Adma代替

4.使用模型预测传入的变量个数要和模型训练时使用的X的特征个数一致,否则会导致线上应用调用不通过------见于线性回归。

5.性能:VGG 的> 数据增强的普通模型>普通模型

6.(Dense层为主)DNN iput_dim=17 的input.shape结果为(None,17),其units数量按经验为 12,24等。

7.CNN的因为是局部连接,因此参数大大少于Dense全连接网络

8,针对学习准确率提升:数据增强,Dropout(防过拟合),更新优化器并设置学习率

9.用户留存,Kaplan生存模型及COX危害系数可以预测具体一个人的流失风险

10.对于分类模型中的样本不均衡问题,需要结合混淆矩阵,F1分数,和AUC曲线一起看模型的优劣,不能只看准确率。

11.seaborn 绘图时,sns.countplot(是否转化’,data=df_fission)这个调用会报错countplot() got multiple values for argument 'data’****,需要给第一个参数加

  • 9
    点赞
  • 11
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值