机器学习的专业术语 和 各种技巧

本文概述了机器学习中的重要概念,如客户流失率、模型预测指标(如精度和ROC),以及深度学习技术如神经网络结构、奇异矩阵处理和优化策略。还涵盖了数据预处理、特征工程、过拟合防治和性能成本优化的方法,如转移学习和模型部署策略。
摘要由CSDN通过智能技术生成

专业术语

  1. Churn = 客户流失,退订
  2. Accuracy = 模型预测的总体(阴性+阳性)的正确比率
  3. Precision = 模型预测中,阳性的预测正确比率
  4. ROC = 体现分类算法中不同阈值对分类效果的影响
  5. Softmax = 神经网络中将输出转换成概率分布
  6. Rectofoed linear units(ReLU) = 神经网络的激活函数
  7. Area under the curve= 曲线下面积,ROC曲线中体现模型分类能力
  8. Horovod = Distributed training framework for TensorFlow, Keras, PyTorch and Apache MXNet.
  9. Singular Matrix=奇异矩阵,影响回归算法的优化。
  10. Exhaustive Grid Search=穷举网格参数搜索,寻找模型的最佳超参数的一种方法。
  11. Naïve Bayesian model中navie表示特征独立。当特征有关联关系时,使用full Bayesian model。
  12. High granularity=高度细节,
  13. Shadow deployment = 部署模型预测,但预测结果只保存分析,而不实际应用。

常见问题和机器学习技巧

样本问题

  1. Training accuracy oscillate = learning rate too high.
  2. 缺失值处理:
    1. K-means
    2. Multiple imputation
  3. 数据倾斜(Skewed Data,中位数和平均数有差距):
    1. 数字类特征分箱
    2. Logarithmic transformation对数变换
  4. 预测目标类型太少(比如预测机械故障, 识别欺诈交易):
    1. Oversample
  5. 识别停用词:
    1. the CountVectorizer function in the scikit-learn library
    2. TF-IDF
  6. K-means寻找种子数=遍历K值求SSE
  7. Xgboost中csv_weight and scale_pos_weight两个参数通过调整权重告知模型样本比例存在不均衡的现象。

特征问题

  1. 词嵌入前三步准备活动:
    1. 转小写
    2. 去停用词
    3. 分词。
  2. NLP feature engineering:
    1. TF-IDF
    2. Stemming
  3. 解决特征高度相关(correlation)问题or 降维:
    1. PCA
    2. Autoencoder
    3. KNN
    4. MDS(Multidimensional Scaling)
  4. 寻找主要特征
    1. Correlation plot with heatmaps
    2. Univariate selection
    3. Feature importance with a tree-based classifier
    4. PCA
  5. 线性回归中处理非线性关系的特征:
    1. Quantile binning
  6. 离散值做特征:
    1. One-hot
    2. Frequency as feature
  7. Naive Bayesian model中naive表示特征独立。当特征有关联关系时,使用Full Bayesian model。

性能和成本问题

  1. 深度学习提升模型预测速度 = pruning low-ranking filters
  2. DeepAR算法加快训练速度:
    1. GPU
    2. 多机器。
  3. hyperparameter tuning job 节省时间:
    1. Use the Hyperband tuning strategy.
    2. Set a lower value for the MaxNumberOfTrainingJobs parameter.

其他问题

  1. 过拟合(Overfit)问题解决方案:
    1. L1/L2正则化惩罚机制(优先L1,L2太大会导致特征权重为0)
    2. Smooth L1 loss
    3. Increase dropout
    4. 扩大样本
    5. Early stopping
    6. Simplifying the model
    7. Decrease feature combination
    8. Decrease number of Layer in Neural Network
    9. Lower max_depth in Decision Tree
    10. 由于样本不平衡(bias)导致过拟合:Stratified sampling
  2. 模型训练和测试结果都很差,Poorfit:
    1. 减少正则
    2. 增加训练样本
    3. 增加特征
    4. t-SNE + scatter plot=大量特征快速查看是不是有内在联系和依赖关系。
  3. 特定领域的语言模型优化 = 使用领域的文献重新进行词嵌入(word2vec)
  4. Seq2seq 长句效果不佳 = attention mechanism
  5. 快速提升神经网络的Recall = 将分类的权重加入损失函数
  6. Multi-class:分类算法。Multi-label:打标签,即一个预测对象可能同时属于多个分类。
  7. IPInsight+RCF来判断异常交易。
  8. Transfer Learning(迁移学习): pre-trained layers and replace last full connected layer.
  9. 预训练神经网络(如BERT)转成分类器:保留各层权重,将最后一个全连接层转成分类器再加以训练。
  • 8
    点赞
  • 7
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

爱知菜

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值