Machine Learning
文章平均质量分 79
介绍、总结机器学习
MasterQKK 被注册
算法工程师
展开
-
[多标签分类]MultiLabelBinarizer: 从one-hot 到multi-hot
MultiLabelBinarizer, LabelEncoder, One hot encoder原创 2023-08-29 19:00:47 · 940 阅读 · 0 评论 -
[资源整理]几个经典的用于不平衡回归Imbalanced regression的采样方法以及代码资源
几个经典的用于不平衡回归Imbalanced regression的采样方法以及代码资源,DA-WR, REBAGG, ImbalancedLearningRegression, SMOTE, SMOGN原创 2023-03-06 14:56:58 · 1149 阅读 · 0 评论 -
[资源整理]经典的用于不平衡分类的采样方法以及相关的代码库/包
SMOTE, SMOGN, G-SMOTE, DeeSmote原创 2023-05-10 16:52:57 · 768 阅读 · 0 评论 -
Python_画boxplot 盒图/箱线图
复杂的Boxplot, 为每个boxplot指定不同的颜色x_tick的斜体显示``不同的boxplot显示不同的颜色箱形图(Box-plot)又称为盒须图/盒式图/箱线图,是一种用作显示一组数据分散情况的统计图。这自然让人想到分位数的概念, 不错, boxplot就是通过分位数来直观展示数据的分散程度。原创 2021-04-22 15:17:29 · 5376 阅读 · 0 评论 -
Python_基于statsmodel包画Bland altman plot (Mean Difference Plot)用于预测结果分析
画Bland Altman plot (Mean Difference Plot)mean_diff_plot的API接口*limit_lines_kwdsmean_line_kwdsscatter_kwds原创 2021-04-22 14:51:15 · 1857 阅读 · 0 评论 -
Python生成高斯白噪声white noise
Python生成高斯白噪声white noise原创 2021-04-21 14:55:12 · 6518 阅读 · 1 评论 -
计算Pearson 相关系数的三种方式
两个变量$X$和$Y$间Pearson 相关系数计算如下:numpy pandas statsmodel调用scipy的pearsonr 调用pandas的corr 调用numpy的corrcoef原创 2021-04-19 18:33:38 · 4545 阅读 · 0 评论 -
标记分布学习LDL与多标记学习MLL以及单标记学习
与传统的单标记学习( **single label learning, SLL**)和多标记学习(**mutli label learning, MLL**)不同, 在标记分布学习(**label distribution leaning, LDL**)中,ground-truth label本身就是以标记分布的(离散)形式给出的,目标就是训练模型使得预测的标记分布与ground-truth label (distribution)尽可能匹配、接近LDL与MLL和SLL的关系LDL既可以做分类任务也可以原创 2021-04-13 17:21:22 · 2567 阅读 · 0 评论 -
EM算法的形式化推导
EM算法的形式化推导:——序:EM算法的思想在K_Means, GMM, Semi-GMM, HMM,等算法/模型中均有应用,事实上,对于任何带有隐变量的问题,都可以用EM来求解,可以说EM是机器学习中的一个极其重要的算法。其基本思想是:首先根据己经给出的观测数据,估计出模型参数的值;然后再依据上一步估计出的参数值估计缺失数据的值(E-step),再根据估计出的缺失数据加上之前己经观测到的数据...原创 2018-10-04 00:56:28 · 550 阅读 · 0 评论 -
朴素贝叶斯(naive Bayes)原理与应用
****说明**: **本文系转载,原作者博客:http://blog.csdn.net/tanhongguang1/article/details/45016421**** 我稍微做了一些补充: naive Bayes实际上就是要求一组厚颜概率,有多少个呢? 咱们假设样本共有K个类别,样本的特征维度是M,每个维度上取值(离散)有Ci个,则总共要计算的厚颜概率有这么多个: ![这转载 2017-03-23 18:12:07 · 973 阅读 · 0 评论 -
理解Towards Understanding Ensemble, Knowledge Distillation and Self-Distillation in Deep Learning
理解Towards Understanding Ensemble, Knowledge Distillation and Self-Distillation in Deep Learning深度学习中的三个神秘之处神经网络集成 vs 特征图集成集成 vs 减少单个模型的误差多视图数据:新方法去证明深度学习中的集成知识蒸馏:让单个模型去学习多个视图自蒸馏:隐式地结合集成和知识蒸馏总结Reference转载 2021-02-18 14:42:59 · 2085 阅读 · 0 评论 -
特征选择,归一化以及交叉验证中应当注意的问题
特征选择,归一化是数据处理中必备的两个步骤,交叉验证是模型评估以及超参数搜索中经常用到的方法。然而在实际操作中,初学者往往会有这样的**疑问**: </font> (1)是先做特征选择还是先划分 训练集-验证集-测试集? (2)是先做归一化还是先划分 训练集-验证集-测试集? (3)交叉验证以及带有超参数寻优的交叉验证的细节? 在实际做研究/项目的过程中,初学者常常会有上述疑问,以笔者多年的文献阅读以及code review的经历来看,很多人并没有搞清楚这些问题,即使文章已经在会议/期刊上面原创 2021-02-17 23:48:17 · 3695 阅读 · 4 评论