机器学习入门-新手常见问题记录

置顶

技术与健康

于 2024-07-31 07:47:15 发布

阅读量652

点赞数 9

分类专栏： ML 文章标签：机器学习人工智能

本文为博主原创文章，未经博主允许不得转载。

本文链接：https://blog.csdn.net/Practicer2015/article/details/140812356

版权

0,机器学习项目的5步: 定义问题（营销/运营/维护等）—>收集数据（A/B测试）和预处理/–>（选择算法和确定模型—>训练模型—>评估并优化模型)，很多时候，后面3步需要不断的反复循环的，甚至有时候后面四步包含数据的处理特别是涉及特征工程话，也需要反复。在机器学习数据集方面，针对复杂数据集，可在原数据集外通过pandas 和numpy单独构建训练集和测试集（例如RMF数据集的构建）

1.kaggle 初次使用vgg19 会因为网络原因导致下载不下来，需要在 setting页面打开 internet选项
2. 普通的 CNN，和VGG19使用的Y的特征数量不同。在迁移学习章节中，要注意。https://blog.csdn.net/qq_39938666/article/details/93424418。

可以更改Y的特征数量
下面展示一些 内联代码片。

num_classes = 10 && y_labels = to_categorical(_ylabels, num_classes=num_classes)

3.optimize.Adma不可用时，用tf.keras.optimize.Adma代替

4.使用模型预测传入的变量个数要和模型训练时使用的X的特征个数一致，否则会导致线上应用调用不通过------见于线性回归。

5.性能:VGG 的> 数据增强的普通模型>普通模型

6.（Dense层为主）DNN iput_dim=17 的input.shape结果为（None,17）,其units数量按经验为 12，24等。

7.CNN的因为是局部连接，因此参数大大少于Dense全连接网络

8,针对学习准确率提升：数据增强，Dropout(防过拟合)，更新优化器并设置学习率

9.用户留存，Kaplan生存模型及COX危害系数可以预测具体一个人的流失风险

10.对于分类模型中的样本不均衡问题，需要结合混淆矩阵，F1分数，和AUC曲线一起看模型的优劣，不能只看准确率。

11.seaborn 绘图时，sns.countplot(是否转化’,data=df_fission)这个调用会报错countplot() got multiple values for argument 'data’****，需要给第一个参数加

最低0.47元/天解锁文章

技术与健康

关注

9
点赞
踩
11

收藏

觉得还不错? 一键收藏
0
评论
机器学习入门-新手常见问题记录

在选择具体的算法时，建议从训练数据的大小、特征的数量、是着重考量模型的性能还是考量模型的可解释性、是否要求模型有很快的训练速度，以及数据的线性程度这几个方面，来选择最适宜的算法。0,机器学习项目的5步: 定义问题（营销/运营/维护等）—>收集数据（A/B测试）和预处理/–>（选择算法和确定模型—>训练模型—>评估并优化模型)，很多时候，后面3步需要不断的反复循环的，甚至有时候后面四步包含数据的处理特别是涉及特征工程话，也需要反复。2. 普通的 CNN，和VGG19使用的Y的特征数量不同。
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。