![](https://img-blog.csdnimg.cn/20201014180756780.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
机器学习
文章平均质量分 93
意念回复
这个作者很懒,什么都没留下…
展开
-
深度学习学习率
学习率是训练神经网络的重要超参数之一,它代表在每一次迭代中梯度向损失函数最优解移动的步长,通常用 η 表示。它的大小决定网络学习速度的快慢。在网络训练过程中,模型通过样本数据给出预测值,计算代价函数并通过反向传播来调整参数。重复上述过程,使得模型参数逐步趋于最优解从而获得最优模型。在这个过程中,学习率负责控制每一步参数更新的步长。合适的学习率可以使代价函数以合适的速度收敛到最小值。Transformers之自定义学习率动态调整 - 知乎参考。原创 2023-05-24 16:10:01 · 2527 阅读 · 1 评论 -
Pytroch 模型权重初始化
权值初始化是指在网络模型训练之前,对各节点的权值和偏置初始化的过程,正确的初始化会加快模型的收敛,从而加快模型的训练速度,而不恰当的初始化可能会导致梯度消失或梯度爆炸,最终导致模型无法训练。原创 2023-05-18 11:29:55 · 2254 阅读 · 0 评论 -
梯度提升(Gradient Boosting)算法
目录1 引言2 梯度下降法3梯度提升算法4梯度提升原理推导5对梯度提升算法的若干思考5.1梯度提升与梯度下降的区别和联系是什么?5.2梯度提升和提升树算法的区别和联系?5.3梯度提升和GBDT的区别和联系?5.4 梯度提升算法包含哪些算法?5.5对于一般损失函数而言,为什么可以利用损失函数的负梯度在当前模型的值作为梯度提升算法中残差的近似值呢?1 引言 提升树利用加法模型与前向分歩算法实现学习的优化过程。当损失函数是平方误差损失...原创 2022-04-27 14:53:01 · 9639 阅读 · 2 评论 -
归一化方法 BN、LN、IN、GN、SN
目录1 概念2 图解3 公式4 Batch normalization和Layer normalization有什么区别?4.1为什么ML中用BN比较多?4.1.1 ML & batch normalization4.1.2 ML & layer normalization4.1.3WhyML&BN?4.2为什么NLP中用LN比较多?4.2.1NLP & batch normalization4.2.2NLP &am...原创 2022-04-25 14:37:10 · 2591 阅读 · 0 评论 -
卷积神经网络中二维卷积核与三维卷积核有什么区别?
1一维卷积神经网络(1D-CNN) 一维卷积常用在序列模型、自然语言处理领域; 假设输入数据维度为8,filter维度为5,不加padding时,输出维度为4;如果filter的数量为16,那么输出数据的shape就是;2 二维卷积神经网络(2D-CNN) 二维卷积常用在计算机视觉、图像处理领域(在视频的处理中,是对每一帧图像分别利用CNN来进行识别,没有考虑时间维度的信息);输入是7帧的灰度图。...原创 2022-04-21 00:15:20 · 10603 阅读 · 3 评论 -
Xavier参数初始化方法
1 梯度消失与梯度爆炸这是一个深度学习领域遇到的老问题了,即使是现在,任何一个新提出的模型,无论是MLP、CNN、还是RNN,随着深度的加深,这两个问题变得尤为严重。梯度消失是指在深度学习训练的过程中,梯度随着链式求导逐层传递逐层减小,最后趋近于0,导致对某些层的训练失效; 梯度爆炸与梯度消失相反,梯度随着链式求导逐层传递逐层增大,最后趋于无穷,导致某些层无法收敛;2 Xavier方法接下来的推导基于假设:激活函数在0周围的导数接近1(比如tanh); 偏置项b初始化为0,期望为0原创 2022-04-19 23:03:15 · 5063 阅读 · 0 评论 -
多种采样方法
1 采样的作用 采样在机器学习中有着非常重要的应用:它可以将复杂的分布简化为离散的样本点; 可以用重采样对样本集进行调整以更好地适应后期的模型学习; 可以用于随机模拟以进行复杂模型的近似求解或推理。 另外, 采样在数据可视化方面也有很多应用, 可以帮助人们快速、 直观地了解数据的结构和特性。采样是从特定的概率分布中抽取对应的样本点。采样的作用:(1)采样本质上是对随机现象的模拟, 根据给定的概率分布, 来模拟产生一个对应的随机事件。 采样可以让人们对随机事件及其产生过程...原创 2022-04-16 21:52:59 · 4693 阅读 · 2 评论 -
优化方法(随机梯度下降的改进方法)
目录1 前提2动量(Momentum) 方法3AdaGrad方法4RMSProp方法5Adam方法6 总结与扩展1 前提进一步地, 有人会说深度学习中的优化问题本身就很难, 有太多局部最优点的陷阱。 没错, 这些陷阱对随机梯度下降法和批量梯度下降法都是普遍存在的。但对随机梯度下降法来说, 可怕的不是局部最优点, 而是山谷和鞍点两类地形。山谷顾名思义就是狭长的山间小道, 左右两边是峭壁; 鞍点的形状像是一个马鞍, 一个方向上两头翘, 另一个方向上两头垂, 而中...原创 2022-04-14 00:21:03 · 3836 阅读 · 0 评论 -
多重共线性的影响、判定及消除的方法
目录1 什么是多重共线性?2 多重共线性的影响3 共线性的判别指标(方差膨胀因子)3.1 拟合优度3.2方差膨胀因子VIF4 多重共线性处理方法4.1 手动移除出共线性的变量4.2 逐步回归法4.2.1向前法4.2.2后退法4.3 增加样本容量4.4 岭回归4.4.1最小二乘法求解多元线性回归4.4.2 岭回归处理多重共线性4.4.3 Lasso回归处理多重共线性4.4.4 总结1 什么是多重共线性? 回归分...原创 2022-03-26 19:05:22 · 36735 阅读 · 1 评论 -
超参数调优的方法
1gridSearchCV(网格搜索) sklearn.model_selection.GridSearchCV — scikit-learn 1.0.2 documentation GridSearchCV,它存在的意义就是自动调参,只要把参数输进去,就能给出最优化的结果和参数。但是这个方法适合于小数据集,一旦数据的量级上去了,很难得出结果。这个时候就是需要动脑筋了。数据量比较大的时候可以使用一个快速调优的方法——坐标下降。它其实是一种贪心算法:拿当前对模型影响最大的...原创 2022-03-21 00:28:35 · 2503 阅读 · 0 评论 -
模型评估过程中,有哪些主要的验证方法?
交叉验证(也称为“过采样”技术)是数据科学项目的基本要素。 它是一种重采样过程,用于评估机器学习模型并访问该模型对独立测试数据集的性能。在本文中,您可以阅读以下大约8种不同的交叉验证技术,各有其优缺点:Leave p out cross-validation Leave one out cross-validation Holdout cross-validation Repeated random subsampling validation k-fold cross-validation原创 2021-02-02 10:58:41 · 8156 阅读 · 0 评论 -
DeepFM
目录1 概述2DeepFM2.1 模型2.2 每一层详解2.2.1第一层2.2.2 第二层2.2.3第三层2.2.4第四层 Output Units3FM层的探究1 概述关键词:特征组合 LR:缺乏特征组合能力,需人工做特征工程 GBDT+LR:特种组合能力不强,对高维的稀疏特征应对乏力 FM:具有较强的二阶特征组合能力,高阶特征组合应对乏力 Wide&Deep:较好地利用了低阶和高阶组合特征。但是wide部分依旧需要特征工程,...原创 2021-12-09 14:25:32 · 534 阅读 · 0 评论 -
Time-Series Anomaly Detection Service at Microsof
1 SRSR 方法的步骤:(1)傅里叶变换得到对数振幅谱,公式 1,2,3(2)光谱残差的计算,公式 4,5(3)傅里叶反变换将序列转换回空间域,公式 6:傅里叶变换:傅里叶逆变换x:输入的序列,n * 1:序列 x 的振幅谱:序列 x 的相位谱:对振幅谱做log计算:对进行均值滤波之后的结果,可以通过将输入序列卷积来近似得到。:是q * q的序列 :spectral residual 光谱残差spectral residual,...原创 2021-07-07 19:56:06 · 420 阅读 · 0 评论 -
马氏距离(Mahalanobis Distance)
目录1 简单理解协方差的物理意义2什么是马氏距离3马氏距离实际意义4马氏距离的推导4.1马氏距离的步骤4.2 马氏距离的推导过程5马氏距离的问题6 马氏距离的优点7 欧氏距离和马氏距离之间的区别和联系 马氏距离(Mahalanobis Distance)是度量学习中一种常用的距离指标,同欧氏距离、曼哈顿距离、汉明距离等一样被用作评定数据之间的相似度指标。但却可以应对高维线性分布的数据中各维度间非独立同分布的问题。1 简单理解协方差的物理意...原创 2021-02-23 14:50:04 · 44658 阅读 · 14 评论 -
数据科学中常见的距离度量方法
在数据挖掘中,我们经常需要计算样本之间的相似度,通常的做法是计算样本之间的距离。在本文中,数据科学家 Maarten Grootendorst 向我们介绍了 9 种距离度量方法,其中包括欧氏距离、余弦相似度等。 许多算法,无论是监督学习还是无监督学习,都会使用距离度量。这些度量,如欧几里得距离或者余弦相似性,经常在 k-NN、 UMAP、HDBSCAN 等算法中使用。了解距离度量这个领域可能比你想的更重要,以 k-NN 为例,它常被用于监督学习中。...原创 2021-02-23 13:47:37 · 2394 阅读 · 0 评论 -
机器学习模型序列化
目录1 pickle2joblib3安全性和可维护性的局限性4Interoperable formats 可互操作的格式 机器学习过程分为训练过程和预测过程。训练过程得到一个模型,预测过程得到预测结果。为了节省时间,最好能够在每次执行预测时,调用已经构造好的模型,而不是每次预测前都需要重新训练一次模型。以“决策树”为例,最好能够在每次执行分类时调用已经构造好的决策树。 本文将使用两种方法来实现模型的保存和加载:Pickle和joblib。不跨平台...原创 2020-12-29 17:57:18 · 2212 阅读 · 0 评论 -
Pipeline
目录1 使用sklearn进行数据挖掘1.1 数据挖掘的步骤1.2 数据初貌1.3 关键技术2Pipeline的作用3Pipeline的参数与使用3.1 function3.2用法(例子)3.3 示例3.3.1 Pipeline的调用3.3.2Pipeline参数改变3.3.3Pipeline与GridSearch4 FeatureUnion的作用4.1整体并行处理4.2部分并行处理4.3 示例4.3.1Feature...原创 2020-12-15 15:29:00 · 1254 阅读 · 0 评论 -
轨迹相似性度量方法
1 轨迹 轨迹作为一种时空数据[1],指的是某物体在空间中的移动路径,通常表示为GPS点的序列,例如tr=<p1→p2…pn>,其中点pi=(lat,lng,t),表示该物体在t时刻位于地理坐标位置(lat,lng)上,lat和lng分别表示纬度和经度。 大数据时代,随着车载导航系统的普及,海量的轨迹数据正在源源不断的产生,这些轨迹中蕴含着巨大的价值[2],例如可以进行交通流量分析和预测,为政府的城市规划提供建议;也可以进行轨迹聚类,发现那些被很多轨迹经过...原创 2020-10-28 15:37:19 · 19642 阅读 · 7 评论 -
机器学习算法(二十三):DTW(Dynamic Time Warping,动态时间调整)
1DTW(动态时间调整) 动态时间调整算法是大多用于检测两条语音的相似程度,由于每次发言,每个字母发音的长短不同,会导致两条语音不会完全的吻合,动态时间调整算法,会对语音进行拉伸或者压缩,使得它们尽可能的对齐。 如上图红圈标注的位置,可以发现下面那条线中有许多的点与之对应,如果换成一个个离散的点表示的话,实际上是对上一条曲线该点进行了拉伸处理,使得它们最大化对齐。 最近在研究时间序列的问题,时间序列类似这个。假如想计算两条天气的时间序列是否相似,由...原创 2020-08-30 23:36:57 · 24049 阅读 · 3 评论 -
机器学习算法(二十二):局部离群因子检测方法 (Local Outlier Factor, LOF)
1 离群点挖掘方法2LOF 算法背景 基于密度的离群点检测方法的关键步骤在于给每个数据点都分配一个离散度,其主要思想是:针对给定的数据集,对其中的任意一个数据点,如果在其局部邻域内的点都很密集,那么认为此数据点为正常数据点;而离群点则是距离正常数据点最近邻的点都比较远的数据点。通常有阈值进行界定距离的远近。在基于密度的离群点检测方法中,最具有代表性的方法是局部离群因子检测方法 (Local Outlier Factor, LOF)。3LOF算法简介 在众多...原创 2020-08-30 23:35:15 · 11772 阅读 · 9 评论 -
指数加权移动平均
指数加权移动平均exponentially weighted moving average (EWMA),又叫指数移动平均exponential moving average (EMA)。算术平均(权重相等)—>加权平均(权重不等)—>移动平均(大约是只取最近的N次数据进行计算)—> 批量归一化(BN)及各种优化算法的基础 EMA:是以指数式递减加权的移动平均,各数值的加权影响力随时间呈指数式递减,时间越靠近当前时刻的数据加权影响力越大1指数加权移动平均 ...原创 2020-08-18 23:59:15 · 2597 阅读 · 0 评论 -
指数平滑法(Exponential Smoothing,ES)
目录1 指数平滑2 一次指数平滑预测2.1 定义2.2 例题3 二次指数平滑法3.1 定义3.2例题4三次指数平滑预测4.1 定义4.2 例题5 加权系数a的选择1 指数平滑 在做时序预测时,一个显然的思路是:认为离着预测点越近的点,作用越大。比如我这个月体重100斤,去年某个月120斤,显然对于预测下个月体重而言,这个月的数据影响力更大些。假设随着时间变化权重以指数方式下降——最近为0.8,然后0....原创 2020-08-18 22:53:25 · 50659 阅读 · 7 评论 -
基于时间序列的异常检测
1 异常检测http://blog.rexking6.top/2018/11/05/%E5%9F%BA%E4%BA%8E%E6%97%B6%E9%97%B4%E5%BA%8F%E5%88%97%E7%9A%84%E5%BC%82%E5%B8%B8%E6%A3%80%E6%B5%8B/原创 2020-08-02 23:50:52 · 4810 阅读 · 0 评论 -
机器学习算法(二十一):核密度估计 Kernel Density Estimation(KDE)
1 分布密度函数 给定一个样本集,怎么得到该样本集的分布密度函数,解决这一问题有两个方法:1.1 参数估计方法 简单来讲,即假定样本集符合某一概率分布,然后根据样本集拟合该分布中的参数,例如:似然估计,混合高斯等,由于参数估计方法中需要加入主观的先验知识,往往很难拟合出与真实分布的模型;1.2 非参数估计 和参数估计不同,非参数估计并不加入任何先验知识,而是根据数据本身的特点、性质来拟合分布,这样能比参数估计方法得出更好的模型。核密度估计就是非参数估计中的一种,由...原创 2020-07-13 11:18:40 · 51001 阅读 · 15 评论 -
机器学习算法(二十):孤立森林 iForest (Isolation Forest)
1背景 现有的异常检测方法主要是通过对正常样本的描述,给出一个正常样本在特征空间中的区域,对于不在这个区域中的样本,视为异常。这些方法的主要缺点是,异常检测器只会对正常样本的描述做优化,而不会对异常样本的描述做优化,这样就有可能造成大量的误报,或者只检测到少量的异常。 异常的两个特点:异常数据只占很少量、异常数据特征值和正常数据差别很大。 孤立森林,不再是描述正常的样本点,而是要孤立异常点,由周志华教授等人于2008年在第八届IEEE数据挖掘国际会议上...原创 2020-06-03 23:40:47 · 9095 阅读 · 1 评论 -
异常点检测算法
异常点检测,有时也叫离群点检测,英文一般叫做Novelty Detection或者Outlier Detection,是比较常见的一类非监督学习算法。1 异常点检测算法使用场景 什么时候我们需要异常点检测算法呢?常见的有三种情况。在做特征工程的时候需要对异常的数据做过滤,防止对归一化等处理的结果产生影响。 对没有标记输出的特征数据做筛选,找出异常的数据。 对有标记输出的特征数据做二分类时,由于某些类别的训练样本非常少,类别严重不平衡,此时也可以考虑用非监督的异常点检测算法来做。...原创 2020-05-28 23:53:36 · 2962 阅读 · 0 评论 -
无监督学习总结
目录1 聚类1.1 K-均值算法(K-Means)1.2层次聚类(Hierarchical Clustering)1.3基于密度聚类Mean Shift1.4 基于密度聚类DBSCAN1.5 高斯混合模型(GMM)与EM1.6 基于图论聚类2 降维2.1 主成分分析(Principal Component Analysis,PCA)2.2 SVD矩阵分解(Singular Value Decomposition)2.3 独立成分分析(ICA)2....原创 2020-05-28 23:03:47 · 6733 阅读 · 0 评论 -
机器学习算法(十九):最大熵模型
1 熵详见:熵https://blog.csdn.net/weixin_39910711/article/details/101299441 熵的概念最早起源于物理学,用于度量一个热力学系统的无序程度。在信息论里面,熵是对不确定性的测量。1.1 熵的引入 事实上,熵的英文原文为entropy,最初由德国物理学家鲁道夫·克劳修斯提出,其表达式为: ...原创 2020-04-29 23:51:56 · 1019 阅读 · 0 评论 -
机器学习算法(十七):隐马尔科夫模型(HMM)
隐马尔科夫模型一(概念理解):https://blog.csdn.net/gzj_1101/article/details/79955340有趣的隐马尔科夫模型:https://baijiahao.baidu.com/s?id=1601390969712055408&wfr=spider&for=pc...原创 2020-03-01 18:07:28 · 3269 阅读 · 0 评论 -
机器学习算法(十六):马尔科夫链
https://blog.csdn.net/gzj_1101/article/details/79955340https://baijiahao.baidu.com/s?id=1601390969712055408&wfr=spider&for=pc原创 2020-03-01 01:12:20 · 5198 阅读 · 0 评论 -
机器学习算法(十二):聚类(3)基于密度的聚类——DBSCAN聚类算法
目录1DBSCAN聚类算法2 参数选择3 步骤4 实例5 常用的评估方法:轮廓系数6DBSCAN 算法评价及改进 基于密度的聚类是根据样本的密度分布来进行聚类。通常情况下,密度聚类从样本密度的角度出来,来考查样本之间的可连接性,并基于可连接样本不断扩展聚类簇,以获得最终的聚类结果。其中最著名的算法就是 DBSCAN 算法。 DBSCA...原创 2020-02-29 15:24:11 · 3354 阅读 · 0 评论 -
机器学习算法(十二):聚类(2)层次聚类 Hierarchical Clustering
https://blog.csdn.net/Andy_shenzl/article/details/83783469https://blog.csdn.net/huacha__/article/details/81094891https://blog.csdn.net/denghecsdn/article/details/82793940原创 2020-02-29 00:33:51 · 8339 阅读 · 1 评论 -
深度学习中的Dropout
1 Dropout简介1.1 Dropout出现的原因 在机器学习的模型中,如果模型的参数太多,而训练样本又太少,训练出来的模型很容易产生过拟合的现象。在训练神经网络的时候经常会遇到过拟合的问题,过拟合具体表现在:模型在训练数据上损失函数较小,预测准确率较高;但是在测试数据上损失函数比较大,预测准确率较低。 过拟合是很多机器学习的通病。如果模型过拟合,那么得...原创 2020-02-20 23:24:13 · 1277 阅读 · 0 评论 -
机器学习算法(十五):GBDT
关于树的几个ensemble模型的比较(GBDT、xgBoost、lightGBM、RF):https://blog.csdn.net/xwd18280820053/article/details/689274221 决策树 决策树详见:https://blog.csdn.net/weixin_39910711/article/details/79468798 ...原创 2020-02-15 00:09:21 · 7204 阅读 · 0 评论 -
提升方法(二):提升树
目录1 提升树模型2 提升树算法3 梯度提升提升方法与AdaBoost算法见:https://blog.csdn.net/weixin_39910711/article/details/1040052701 提升树模型 其中,例子见https://blog.csdn.net/weixin_39910711/article/details/1040052...原创 2020-01-17 17:25:46 · 180 阅读 · 0 评论 -
提升方法(一):AdaBoost算法
目录1AdaBoost算法1.1AdaBoost算法基本思路1.2AdaBoost算法步骤1.3AdaBoost算法的例子2AdaBoost算法的训练误差分析2.1 定理1(AdaBoost的训练误差界)2.2 定理二(二类分类问题AdaBoost的训练误差界)3AdaBoost算法的解释3.1前向分步算法3.2前向分步算法与Adaboos...原创 2020-01-17 15:11:09 · 504 阅读 · 0 评论 -
可能近似正确(probably approximately correct,PAC)学习模型
1 问题框架 假定数据按照某概率分布P从X中随机产生,一般D可为任意分布,并且它对学习型算法是未知的。对于P,所要求的是它的稳定性,即该分布不会随时间变化(不然我们就没有学习的意义了)。训练数据的由P分布随机抽取而产生x,然后x及其目标值(可以理解为y,标签)被提供给学习器。 学习器在学习目标函数时考虑可能假设的集合H。 在观察了一系列训练数据后,...原创 2020-01-16 15:39:06 · 2230 阅读 · 1 评论 -
机器学习算法(十三):word2vec
1 单词表达1.1Word embedding Embedding是数学领域的有名词,是指某个对象 X 被嵌入到另外一个对象 Y 中,映射 f : X → Y ,例如有理数嵌入实数。 Word embedding 是NLP中一组语言模型(language modeling)和特征学习技术(feature learning techniques)的总称,这些...原创 2020-01-10 17:34:07 · 6907 阅读 · 1 评论 -
范数规则化(一):L0、L1与L2范数
目录1 范式2L0 范数2L1 范数2.1L12.2L1正则化和特征选择3L2 范数3.1L23.2L2正则化和过拟合3.3L2正则化和优化计算3.3.1 condition number3.3.2L2正则化和condition number4 L1与L2的差别4.1下降速度4.2 模型空间的限制5无穷范数...原创 2018-12-13 21:57:50 · 6732 阅读 · 0 评论 -
欠拟合与过拟合
目录1欠拟合2 过拟合3 判断欠拟合和过拟合3.1 学习曲线(learning curves)3.2 交叉验证(cross-validation)1欠拟合 左图表示size与prize关系的数据,中间的图就是出现欠拟合的模型,不能够很好地拟合数据,如果在中间的图的模型后面再加一个二次项,就可以很好地拟合图中的数据了,如右面的图所示。解决方法:...原创 2018-12-12 21:38:37 · 767 阅读 · 0 评论