日常学习小结
文章平均质量分 95
无
____________咸粥
这个作者很懒,什么都没留下…
展开
-
【算法系列】通俗易懂的Adaboost原理介绍
转载自《Adaboost入门教程——最通俗易懂的原理介绍(图文实例)》,特别通俗易懂的一篇Adaboost文章文章目录1 写在前面2 基本原理3 弱分类器(单层决策树)4 关于Adaboost的两种权重5 Adaboost分类器的权重5.1 图解Adaboost分类器结构5.2 图解Adaboost加权表决结果总结1 写在前面说到Adaboost,公式与代码网上到处都有,《统计学习方法》里面有详细的公式原理,Github上面有很多实例,那么为什么还要写这篇文章呢?希望从一种更容易理解的角度,来为大.转载 2021-03-09 16:57:21 · 5719 阅读 · 0 评论 -
迅速理解L-p范数原理
1 定义L-p范数:∑1n((∣xi∣)p)1p\sum_{1}^{n}((|x_i|)^p)^\frac{1}{p}∑1n((∣xi∣)p)p12 作用及原理作用:作为正则项(平滑项)加入损失函数中,可使得分类边界更为平滑,从而解决过拟合的问题。对此我们可以很直观的理解,一个平滑的函数对于噪声数据(xi+delta(x)x_i+delta(x)xi+delta(x)),其受噪声部分 delta(x)delta(x)delta(x) 的影响不会很大。反之,如果训练出的函数不平滑的话,则原创 2020-12-18 17:09:04 · 3598 阅读 · 3 评论 -
【思维导图】Python语法学习笔记(基本数据类型+基本语法+其他)
原创 2020-07-16 15:45:38 · 240 阅读 · 0 评论 -
【思维导图】小样本问题的迁移学习解决思路
一年前总结的关于“小样本问题的迁移学习解决思路”,搜集了相关文章,做了简单的笔记,希望给有相关需要的同学提供一点便利。原创 2020-07-16 16:13:30 · 4352 阅读 · 6 评论 -
【算法系列】数据预处理全面介绍
转载自知乎“宋城”的《最全面的数据预处理介绍》一文背景本文主要介绍详细处理流程以及这样处理的原因,对于处理方法的原理介绍较为简略。当然,想深入了解原理可以根据这份框架深入研究思索,将框架和细节一起把握。数据是机器学习的原料,在把数据投入机器学习模型前,我们需要对数据进行加工。就像榨果汁,得先把水果削皮切小块了才可以投入榨汁机中,否则倒出来的连猫咪也喝不下去。同样的,正确预处理数据对模型输出结果有非常大的影响。可以说,数据预处理是机器学习落地最麻烦但最具有挑战的环节。一、数据可能存在问题在实.原创 2020-07-13 18:33:07 · 2796 阅读 · 2 评论 -
【思维导图】迁移学习前导知识+基础知识
原创 2020-07-16 15:53:20 · 1000 阅读 · 1 评论 -
【算法系列】WLDPP(Weighted Local Discriminant Preservation Projection)局部判别保留投影法
本文主要介绍一下论文《Recognition algorithm of Parkinsons disease based on weighted local discriminant preservation projection embedded ensemble algorithm》中针对帕金森疾病数据提出的 LDPP(局部判别保留投影法) 方法一、 基本介绍目前帕金森病数据的问题是高冗余、高噪声和小样本,降维可以有效地解决这些问题。本文提出了一种加权局部判别保持投影嵌入集成算法,与现有的特征选择原创 2020-08-03 13:28:03 · 707 阅读 · 0 评论 -
【算法系列】Libsvm交叉验证与网格搜索(参数选择)
转载自Libsvm交叉验证与网格搜索(参数选择)一、交叉验证交叉验证(Cross validation)是一种评估统计分析、机器学习算法对独立于训练数据的数据集的泛化能力(generalize)的方法, 能够避免过拟合问题。交叉验证一般要尽量满足:训练集的比例要足够多,一般大于一半训练集和测试集要均匀抽样交叉验证主要分成以下几类:1)Double cross-validationDouble cross-validation也称2-fold cross-validation.原创 2020-07-16 16:33:10 · 1342 阅读 · 0 评论 -
【算法系列】SVM核函数如何选择
本文相关仅针对SVM的核函数如何选择这一问题做了相关总结,不涉及其他参数的选择。总结的情况仅供参考,实际情况中还是得结合经验和实验的实际结果来选择最合适的核函数,最好都试一遍,看哪个最符合自己的数据分布特性。linear:线性内核参数少,速度快,对于一般数据,分类效果已经很理想了。linear kernel可以是RBF kernel的特殊情况数据线性可分:如果特征提取的好,很多问题都线性可分数据特征维数高,跟样本量差不多特征维数低,而样本数量很多,则需手工添加一些feature后选用lin原创 2020-07-12 15:42:01 · 1823 阅读 · 1 评论 -
【算法系列】孤独森林(Isolation Forest)异常点监测方法,附源码
参考博客:孤立森林(Isolation Forest)数据异常的两个特点:异常数据只占很少量异常数据特征值和正常数据差别很大现有的异常检测方法:主要是通过对正常样本的描述,给出一个正常样本在特征空间中的区域,对于不在这个区域中的样本,视为异常。主要缺点:异常检测器只会对正常样本的描述做优化,而不会对异常样本的描述做优化,这样就有可能造成大量的误报,或者只检测到少量的异常。孤立森林异常点检测法:在孤立森林(iForest)中,异常被定义为“容易被孤立的离群点 (more like.原创 2020-10-09 21:09:29 · 3951 阅读 · 0 评论