机器学习
文章平均质量分 73
one-莫烦
keep going
展开
-
孤立随机森林算法
针对于不同类型的异常,要用不同的算法来进行检测,而孤立森林算法主要针对的是连续型结构化数据中的异常点。使用孤立森林的前提是,将异常点定义为那些 “容易被孤立的离群点” —— 可以理解为分布稀疏,且距离高密度群体较远的点。从统计学来看,在数据空间里,若一个区域内只有分布稀疏的点,表示数据点落在此区域的概率很低,因此可以认为这些区域的点是异常的。异常数据占总样本量的比例很小;异常点的特征值与正常点的差异很大。上图中,中心的白色空心点为正常点,即处于高密度群体中。转载 2023-03-21 09:19:01 · 650 阅读 · 0 评论 -
Batch Normalization 和 Dropout在训练和测试的不同
BN和Dropout在训练和测试时的不同原创 2022-06-23 19:06:19 · 492 阅读 · 0 评论 -
一文读懂多分类的评价指标(微平均、宏平均、加权平均)
多分类下的评价标准原创 2022-06-22 17:23:10 · 2794 阅读 · 0 评论 -
L1正则化使参数具有稀疏性的原理
原创 2022-02-11 15:22:38 · 325 阅读 · 0 评论 -
优化器、优化算法Optimizer总结
1 梯度下降法1.1 批量梯度下降1.2 随机梯度下降特点是SGD的噪音较BGD要多,使得SGD并不是每次迭代都向着整体最优化方向。所以虽然训练速度快,但是准确度下降,并不是全局最优。虽然包含一定的随机性,但是从期望上来看,它是等于正确的导数的。缺点:SGD 因为更新比较频繁,会造成 cost function 有严重的震荡。BGD 可以收敛到局部极小值,当然 SGD 的震荡可能会跳到更好的局部极小值处。选择合适的learning rate比较困难 ,学习率太低会收敛缓慢,学习率过高会原创 2022-02-10 15:25:44 · 256 阅读 · 0 评论 -
一文读懂ID3、C4.5、CART
前提1. ID3ID3 算法是建立在奥卡姆剃刀(用较少的东西,同样可以做好事情)的基础上:越是小型的决策树越优于大的决策树。1.1 思想从信息论的知识中我们知道:信息熵越大,从而样本纯度越低,。ID3 算法的核心思想就是以信息增益来度量特征选择,选择信息增益最大的特征进行分裂。算法采用自顶向下的贪婪搜索遍历可能的决策树空间(C4.5 也是贪婪搜索)。其大致步骤为:初始化特征集合和数据集合;计算数据集合信息熵和所有特征的条件熵,选择信息增益最大的特征作为当前决策节点;更新数据集合和特征集合原创 2022-02-09 16:32:45 · 1806 阅读 · 0 评论 -
一文读懂LightGBM
1. LightGBM简介GBDT (Gradient Boosting Decision Tree) 是机器学习中一个长盛不衰的模型,其主要思想是利用弱分类器(决策树)迭代训练以得到最优模型,该模型具有训练效果好、不易过拟合等优点。GBDT不仅在工业界应用广泛,通常被用于多分类、点击率预测、搜索排序等任务;在各种数据挖掘竞赛中也是致命武器,据统计Kaggle上的比赛有一半以上的冠军方案都是基于GBDT。而LightGBM(Light Gradient Boosting Machine)是一个实现GBDT转载 2022-01-20 11:04:52 · 1432 阅读 · 0 评论 -
一文读懂准确率、精准率、召回率、ROC、AUC、F1值
准确率,精准率,召回率分类问题中的混淆矩阵如下TP: 预测为1,预测正确,即实际1FP: 预测为1,预测错误,即实际0FN: 预测为0,预测错确,即实际1TN: 预测为0,预测正确即,实际0准确率 accuracy准确率的定义是预测正确的结果占总样本的百分比,其公式如下:准确率=(TP+TN)/(TP+TN+FP+FN)虽然准确率可以判断总的正确率,但是在样本不平衡 的情况下,并不能作为很好的指标来衡量结果。举个简单的例子,比如在一个总样本中,正样本占90%,负样本占10%,样本是严重不原创 2022-01-18 16:39:52 · 14115 阅读 · 0 评论 -
(几种归一化)一文读懂BN、LN、IN、GN
几种缩写分别对应Batch NormalizationLayer NormalizationInstance NormalizationGroup Normalization需要normalization的原因(1)深度学习包含很多隐含层,每层参数都会随着训练而改变优化,所以隐层的输入分布总会变化,会使得每层输入不再是独立同分布。这就造成,上一层数据需要适应新的输入分布,数据输入激活函数时,会落入饱和区,使得学习效率过低,甚至梯度消失。(2)深度学习会使激活输入分布偏移,落入饱和区,导致反原创 2022-01-14 18:02:28 · 1564 阅读 · 0 评论 -
隐马尔科夫模型HMM
1.基本概念1.1定义、假设和应用我们先通过一个简单的例子,来了解隐马尔科夫模型HMM。假设:(1)小明所在城市的天气有{晴天,阴天,雨天}三种情况,小明每天的活动有{宅,打球}两种选项。(2)作为小明的朋友,我们只知道他每天参与了什么活动,而不知道他所在城市的天气是什么样的。(3)这个城市每天的天气情况,会和前一天的天气情况有点关系。譬如说,如果前一天是晴天,那么后一天是晴天的概率,就大于后一天是雨天的概率。(4)小明所在的城市,一年四季的天气情况都差不多。(5)小明每天会根据当天的天气情况转载 2021-12-28 15:02:42 · 299 阅读 · 0 评论 -
浅显易懂的逻辑回归
今天梳理一下逻辑回归,这个算法由于简单、实用、高效,在业界应用十分广泛。注意咯,这里的“逻辑”是音译“逻辑斯蒂(logistic)”的缩写,并不是说这个算法具有怎样的逻辑性。 前面说过,机器学习算法中的监督式学习可以分为2大类: 分类模型:目标变量是分类变量(离散值); 回归模型:目标变量是连续性数值变量。 逻辑回归通常用于解决分类问题,例如,业界经常用它来预测:客户是否会购买某个商品,借款人是否会违约等等。实际上,“分类”是应用逻辑回归的目的和结果,但中间过程...转载 2021-12-24 17:47:10 · 501 阅读 · 0 评论 -
一文读懂LSTM和GRU
简介LSTM与GRU原创 2021-12-08 11:42:48 · 2744 阅读 · 0 评论 -
Focal Loss解析
结论focal loss主要是解决了难易样本不均衡的问题,就是模型容易分类的样本多,不易分类的样本少,顺带还解决了一点样本不均衡的问题解析公式如下1. 类别权重为了应该样本不均衡的问题,对每个类别赋予不同的权重,可以使得模型关注的重点往样本少的类别倾斜。2. 难度权重对于容易分类的样本,我们希望他产生的损失少,比较难得样本就相反,其中Pt代表预测的概率,对于正例,我们希望P越接近1越好,带入会使得难度权重很低,如果模型表现得很差,p很小,此时的loss就会很大,让模型进行梯度更新,从而进行调原创 2021-12-07 18:03:40 · 693 阅读 · 0 评论 -
一文读懂XGBoost(含公式推导)
1.简介XGBoost的全称是eXtreme Gradient Boosting,它是经过优化的分布式梯度提升库,旨在高效、灵活且可移植。XGBoost是大规模并行boosting tree的工具,它是目前最快最好的开源 boosting tree工具包,比常见的工具包快10倍以上。在数据科学方面,有大量的Kaggle选手选用XGBoost进行数据挖掘比赛,是各大数据科学比赛的必杀武器;在工业界大规模数据方面,XGBoost的分布式版本有广泛的可移植性,支持在Kubernetes、Hadoop、SGE、M转载 2021-12-06 11:22:08 · 8764 阅读 · 0 评论 -
归一化VS标准化
简介归一化(normalization)标准化(standardization)其中μ和 σ 代表样本的均值和标准差,X(max)为最大值, X(min)为最小值。本质经过数学公式推导,其本质就是一种线性变换由于线性变化不会改变原始数据的排序,所以这也是归一化或者标准化work的一个重要的点。区别转换范围归一化(Normalization):把数据转换到(0,1)的数据范围标准化(Standardization):把数据转换到均值为0,标准差为1的数据映射方式数据分布归原创 2021-12-01 17:19:54 · 3135 阅读 · 0 评论 -
交叉熵损失函数VS均方差损失函数
均方差损失函数和交叉熵损失函数是比较常用的损失函数分类中常用交叉熵?MSE均方误差损失也是一种比较常见的损失函数,其定义为:Cross Entropy Loss Function二分类在二分的情况下,模型最后需要预测的结果只有两种情况,对于每个类别我们的预测得到的概率为P和 1-P ,此时表达式为:其中:yi—— 表示样本i的label,正类为 1,负类为0pi—— 表示样本i预测为正类的概率多分类多分类的情况实际上就是对二分类的扩展:其中:M——类别的数量yic——符号函数原创 2021-11-30 15:13:56 · 4947 阅读 · 1 评论