机器学习的专业术语和各种技巧

爱知菜

已于 2024-03-28 14:54:59 修改

阅读量1.1k

点赞数 8

文章标签：机器学习

于 2024-03-20 19:01:10 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/rav009/article/details/136885839

版权

本文概述了机器学习中的重要概念，如客户流失率、模型预测指标（如精度和ROC），以及深度学习技术如神经网络结构、奇异矩阵处理和优化策略。还涵盖了数据预处理、特征工程、过拟合防治和性能成本优化的方法，如转移学习和模型部署策略。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

专业术语

Churn = 客户流失，退订
Accuracy = 模型预测的总体（阴性+阳性）的正确比率
Precision = 模型预测中，阳性的预测正确比率
ROC = 体现分类算法中不同阈值对分类效果的影响
Softmax = 神经网络中将输出转换成概率分布
Rectofoed linear units(ReLU) = 神经网络的激活函数
Area under the curve= 曲线下面积，ROC曲线中体现模型分类能力
Horovod = Distributed training framework for TensorFlow, Keras, PyTorch and Apache MXNet.
Singular Matrix=奇异矩阵，影响回归算法的优化。
Exhaustive Grid Search=穷举网格参数搜索，寻找模型的最佳超参数的一种方法。
Naïve Bayesian model中navie表示特征独立。当特征有关联关系时，使用full Bayesian model。
High granularity=高度细节，
Shadow deployment = 部署模型预测，但预测结果只保存分析，而不实际应用。

常见问题和机器学习技巧

样本问题

Training accuracy oscillate = learning rate too high.
缺失值处理：
1. K-means
2. Multiple imputation
数据倾斜（Skewed Data，中位数和平均数有差距）：
1. 数字类特征分箱
2. Logarithmic transformation对数变换
预测目标类型太少（比如预测机械故障, 识别欺诈交易）：
1. Oversample
识别停用词：
1. the CountVectorizer function in the scikit-learn library
2. TF-IDF
K-means寻找种子数=遍历K值求SSE
Xgboost中csv_weight and scale_pos_weight两个参数通过调整权重告知模型样本比例存在不均衡的现象。

特征问题

词嵌入前三步准备活动：
1. 转小写
2. 去停用词
3. 分词。
NLP feature engineering：
1. TF-IDF
2. Stemming
解决特征高度相关（correlation）问题or 降维：
1. PCA
2. Autoencoder
3. KNN
4. MDS(Multidimensional Scaling)
寻找主要特征
1. Correlation plot with heatmaps
2. Univariate selection
3. Feature importance with a tree-based classifier
4. PCA
线性回归中处理非线性关系的特征：
1. Quantile binning
离散值做特征：
1. One-hot
2. Frequency as feature
Naive Bayesian model中naive表示特征独立。当特征有关联关系时，使用Full Bayesian model。

性能和成本问题

深度学习提升模型预测速度 = pruning low-ranking filters
DeepAR算法加快训练速度：
1. GPU
2. 多机器。
hyperparameter tuning job 节省时间：
1. Use the Hyperband tuning strategy.
2. Set a lower value for the MaxNumberOfTrainingJobs parameter.

其他问题

过拟合（Overfit）问题解决方案：
1. L1/L2正则化惩罚机制（优先L1，L2太大会导致特征权重为0）
2. Smooth L1 loss
3. Increase dropout
4. 扩大样本
5. Early stopping
6. Simplifying the model
7. Decrease feature combination
8. Decrease number of Layer in Neural Network
9. Lower max_depth in Decision Tree
10. 由于样本不平衡（bias）导致过拟合：Stratified sampling
模型训练和测试结果都很差，Poorfit：
1. 减少正则
2. 增加训练样本
3. 增加特征
4. t-SNE + scatter plot=大量特征快速查看是不是有内在联系和依赖关系。
特定领域的语言模型优化 = 使用领域的文献重新进行词嵌入（word2vec）
Seq2seq 长句效果不佳 = attention mechanism
快速提升神经网络的Recall = 将分类的权重加入损失函数
Multi-class：分类算法。Multi-label：打标签，即一个预测对象可能同时属于多个分类。
IPInsight+RCF来判断异常交易。
Transfer Learning（迁移学习）: pre-trained layers and replace last full connected layer.
预训练神经网络（如BERT）转成分类器：保留各层权重，将最后一个全连接层转成分类器再加以训练。

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

爱知菜 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。