![](https://img-blog.csdnimg.cn/20201014180756738.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
机器学习
文章平均质量分 79
Mark_Aussie
这个作者很懒,什么都没留下…
展开
-
Prophet时序预测方法小结
prophet时序预测简介原创 2024-05-21 10:58:49 · 449 阅读 · 0 评论 -
算法知识小结
算法,时间复杂度,空间复杂度原创 2024-04-17 00:37:52 · 328 阅读 · 0 评论 -
多标签与多分类
多标签与多分类原创 2021-07-08 18:02:56 · 2755 阅读 · 0 评论 -
Streamlit 工具记录
Streamlit工具原创 2023-03-08 18:17:40 · 718 阅读 · 0 评论 -
主成分分析(PCA)及异常检测
PCA原创 2021-08-02 00:55:38 · 4453 阅读 · 0 评论 -
One-Hot 的使用
sklearn中的one-hot使用原创 2023-02-07 18:34:22 · 472 阅读 · 0 评论 -
Isolation Forest 孤立森林
孤立森林原创 2021-07-13 18:02:07 · 1573 阅读 · 0 评论 -
Pipeline机器学习模型串联
Pipeline使用及方差偏差的定义原创 2023-01-10 15:50:13 · 867 阅读 · 0 评论 -
Torch计算方法
torch 计算原创 2022-12-23 14:50:31 · 2674 阅读 · 0 评论 -
Ridge 岭回归
岭回归原创 2022-12-15 17:57:00 · 518 阅读 · 0 评论 -
分类结果评价
混淆矩阵 预测值 P N 真实值 T TP FN F FP TN TP:真阳性 TN:真阴性 FP:假阳性 FN:假阴性准确率:Accuracy = (TP+ TN) / (TP + TN + FP + FN)预测值为正例的数量:TP + FP预测正确的正例数量,精确率Precision = TP / TP + FP真实值为正例的数量:TP + FN找到的正例数量,召回率Recall = TP / TP原创 2021-08-02 10:49:01 · 423 阅读 · 0 评论 -
PCA与PCoA
PCA与PCoA原创 2022-12-15 12:11:07 · 802 阅读 · 0 评论 -
Pytorch scatter_()用法
pytorch的scatter_用法原创 2022-12-13 11:41:54 · 362 阅读 · 0 评论 -
Pytorch中的损失函数
pytorch损失函数原创 2022-12-12 18:19:02 · 1134 阅读 · 0 评论 -
集成学习-Boosting
Boosting集成学习总结原创 2022-11-22 16:20:02 · 864 阅读 · 0 评论 -
机器学习-GBDT总结
GBDT转载 2021-06-07 11:04:01 · 556 阅读 · 0 评论 -
皮尔森、斯皮尔曼,肯德尔相关系数的理解
pandas中的corr()方法可使用如下方法,检测特征间的关系皮尔森相关系数(线性相关)计算公式:两个连续变量(X,Y)的pearson相关性系数(Px,y)等于(X, Y)的协方差cov(X,Y)除以各自标准差的乘积(σX,σY)。 系数的取值总是在-1.0到1.0之间,接近0的变量被成为无相关性,接近1或者-1被称为具有强相关性。def pearson(vector1, vector2): n = len(vector1) #s...原创 2021-03-15 18:28:06 · 9082 阅读 · 0 评论 -
Affinity Propagation (AP)近邻传播聚类
AP聚类原创 2022-09-21 10:59:07 · 1714 阅读 · 0 评论 -
获取两个字符串的最大公共子序列(LCS)
LCS原创 2022-09-19 12:00:33 · 3036 阅读 · 2 评论 -
偏差、方差及噪声基础
偏差、方差及噪声原创 2021-06-03 10:29:51 · 759 阅读 · 0 评论 -
伪标签汇总
伪标签原创 2022-08-02 09:52:25 · 2279 阅读 · 0 评论 -
GBDT 和 Xgboost,light-BGM
boosting转载 2021-05-13 16:22:08 · 220 阅读 · 0 评论 -
机器学习-SVM
支持向量机 SVM原创 2021-06-07 18:29:31 · 199 阅读 · 0 评论 -
sklearn的逻辑回归参数解释
逻辑回归原创 2021-03-29 12:06:20 · 934 阅读 · 0 评论 -
机器学习-逻辑回归总结
逻辑回归转载 2021-05-18 15:13:26 · 1036 阅读 · 1 评论 -
计算距离的几种方式汇总
距离计算原创 2022-06-20 16:24:14 · 2397 阅读 · 0 评论 -
聚类方法汇总
聚类原创 2022-06-09 14:57:18 · 18927 阅读 · 2 评论 -
DPCA 密度峰值聚类记录
DPCA原创 2022-05-18 14:05:14 · 417 阅读 · 0 评论 -
PyTorch 的使用
torch方法使用原创 2022-04-18 11:07:17 · 1905 阅读 · 0 评论 -
数学变换的作用
数学变换原创 2022-03-16 14:16:34 · 793 阅读 · 0 评论 -
PyOD异常检测库
PyOD 异常检测库原创 2022-02-16 14:01:24 · 1233 阅读 · 0 评论 -
编辑距离理解
编辑距离原创 2022-01-06 12:21:26 · 674 阅读 · 0 评论 -
标准化、归一化、正则化
标准化、归一化、正则化原创 2021-03-29 14:10:31 · 473 阅读 · 0 评论 -
Frequency Pattern 频繁模式发掘(FP-growth)
频繁模式原创 2021-07-05 18:14:38 · 1005 阅读 · 0 评论 -
信息、信息量、信息熵、互信息、基尼系数、信息增益、KL散度
信息熵等相关概念原创 2021-03-29 11:11:54 · 1048 阅读 · 1 评论 -
范数的理解
范数是强化的距离概念,比距离多了数乘的运算法则,可以把范数当作距离来理解。范数包括向量范数和矩阵范数,向量范数表征向量空间中向量的大小,矩阵范数表征矩阵引起变化的大小。可简单理解为,向量范数是向量空间中的向大小的度量;对于矩阵范数,A * X = B,将向量X变化为B,矩阵范数就是来度量这个变化大小的。L0范数,不是一个真正的范数,主要用来度量向量中非零元素的个数;L0范数本身不容易有一个好的数学表示形式,故被认为是NP难问题,在实际情况中,L0的最优问题会被放宽到L1或L2范数下的最优化。原创 2021-12-15 16:35:58 · 1636 阅读 · 0 评论 -
VIF,共线相关性理解
多重共线性是指在变量空间中,存在自变量可以近似地等于其他自变量的线性组合如果将所有自变量用于线性回归或逻辑回归的建模,将导致模型系数不能准确表达自变量对Y的影响。比如:如果X1和X2近似相等,则模型Y = X1 + X2 可能被拟合成Y = 3 X1 - X2,原来 X2 与 Y 正向相关被错误拟合成负相关,导致模型没法在业务上得到解释。在评分卡建模中,可能将很多相关性很高的变量加入到建模自变量中,最终得到的模型如果用变量系数去解释自变量与目标变量的关系是不合适的。相关矩阵是指由样本...原创 2021-05-12 17:06:52 · 4832 阅读 · 1 评论 -
PSI和KL散度及IV值
PSI和KL散度及IV值原创 2021-03-23 16:14:30 · 1075 阅读 · 0 评论 -
时间与空间复杂度
时间与空间复杂度原创 2021-09-26 10:15:58 · 119 阅读 · 0 评论 -
分类编码汇总
One-hot encoding(也称为伪变量)是一种将类别变量转换为几个二进制列的方法。从机器学习的角度来看,对于分类变量的编码不是一个很好的选择。最明显的是特征纬度增加了。通常一个维度的较低量是更好的。例如,如果要有一个代表美国州(例如加利福尼亚州,纽约州等)的列,那么One-hot方案将导致另外五十个维度。不但会为数据集增加大量的维度,产生太多没用信息。导致异常稀疏的现象,而且这使得难以进行特征优化。对于神经网络来说尤其如此,因为神经网络的优化器在错误空间时会遇到很多麻烦。而且转载 2021-05-07 10:54:02 · 861 阅读 · 0 评论