cy^2-CSDN博客

所谓的不平衡指的是不同类别的样本量差异非常大，或者少数样本代表了业务的关键数据（少量样本更重要），需要对少量样本的模式有很好的学习。样本类别分布不平衡主要出现在分类相关的建模问题上。样本类别分布不均衡从数据规模上可以分为大数据分布不均衡和小数据分布不均衡两种：在实际工程中，样本不平衡问题可能存在于以下几种场景中：工程过程中，应对样本不均衡问题常从以下三方面入手：...

2022-06-06 20:29:07 1405

原创特征变换：特征归一化（Normalization）作用以及方法 Min-Max、Z-Score

特征归一化（Normalization）作用以及方法 Min-Max、Z-Score

2022-06-06 20:04:03 7182 1

原创 1、常用激活函数：Sigmoid、Tanh、ReLU、LReLU、RReLU、ELU

常用激活函数：Sigmoid、Tanh、ReLU、LReLU、RReLU、ELU

2022-06-06 15:53:14 2079 1

目录1.NumPy广播简介 Numpy所具备的广播(broadcasting)特性，可以使得数组的科学计算变得高效而便捷，是NumPy最核大的特色之一。1.NumPy广播简介广播(broadcasting)描述的是NumPy如何处理具有不同形状的数组。受限于某些限制，较小的阵列在较大的阵列上“广播”，以便它们具有兼容的形状。广播提供了一种向量化数组操作的方法，以便循环在 C 而不是 Python 中发生。无需复制不必要的数据，通常可以实现高效的算法实现。在某些情况下，广播不是一个好

2022-06-01 15:35:03 326

原创 2、NumPy数组的常用方法

import numpy as np1.特殊数组的创建方法1.1、全0数组 np.zeros(6, dtype=‘int’) # 默认是浮点型，转化为整型 out:array([0, 0, 0, 0, 0, 0])1.2、全1数组 np.ones((3, 2)) # 三行两列 array([[1., 1.], [1., 1.], [1., 1.]])1.3、随机数组：rand生成服从0-1分布的随机数 np.

2022-05-30 11:09:49 380

原创 scikit-learn：AdaBoost参数解释

在sklearn中，AdaBoost既可以实现分类也可以实现回归，可以使用如下两个类来调用它们：sklearn.ensemble.AdaBoostClassifier(base_estimator=None, *, n_estimators=50, learning_rate=1.0, algorithm=‘SAMME.R’, random_state=None)sklearn.ensemble.AdaBoostRegressor(base_estimator=None, *, n_esti

2022-05-26 21:24:11 964

原创二、集成学习：Boosting 之 AdaBoost_回归问题

对于任意Boosting算法，我们都需要明确以下几点：损失函数L(x,y)L(x,y)L(x,y)的表达式是什么？损失函数如何影响模型构建？弱评估器f(x)f(x)f(x) 是什么，当下boosting算法使用的具体建树过程是什么？综合集成结果H(x)H(x)H(x)是什么？集成算法具体如何输出集成结果？同时，还可能存在其他需要明确的问题，例如：是加权求和吗？如果是，加权求和中的权重如何求解？训练过程中，拟合的数据XXX与yyy分别是什么？模型训练到什么时候停下来最好？同

2022-05-26 16:08:08 1266

原创二、集成学习：Boosting 之 AdaBoost_分类问题

（2）Boosting 之 AdaBoostBoosting 的本质实际上是一个加法模型，通过改变训练样本权重学习多个分类器并进行一些线性组合。而 Adaboost 就是加法模型+指数损失函数+前项分布算法。Adaboost 就是从弱分类器出发反复训练，在其中不断调整数据权重或者是概率分布，同时提高前一轮被弱分类器误分的样本的权值。最后用分类器进行投票表决（但是分类器的重要性不同）...

2022-05-25 22:01:00 647

原创二：统计基础：描述统计

这里写目录标题一级目录二级目录三级目录一级目录二级目录三级目录

2022-05-23 14:48:13 1345

原创 1、异常值（outliers）检测综述：定义、检测方法、影响、修正

一、异常值定义在数据科学项目、统计分析、机器学习应用中检测异常值非常重要；异常值，也称离群值，是指样本中的个别值,其数值明显偏离所属样本的绝大部分观测值。异常值可以分成两种：单变量（Univariate）和多变量（Multivariate）二、导致异常值的原因两大类原因：人为原因（Non-natural）和自然原因（Natural ）。人为原因（Non-natural）：比如常见的数据输入错误、处理错误、抽样误差等详细地了解各种类型的异常值：数据输入错误：人

2022-05-22 14:15:40 3759

原创 2、异常值（outliers）检测：业务法、Z-score、3σ准则、箱线图

三、3σ\sigmaσ准则（异常值检测） 3σ\sigmaσ准则又称拉依达准则，是指先假设一组检测数据只含有随机误差，对其进行计算处理得到标准偏差，按一定概率确定一个区间，认为凡超过这个区间的误差，就不属于随机误差而是粗大误差，含有该误差的数据应予以剔除。 3σ准则3\sigma准则3σ准则，仅局限于对正态或近似正态分布的样本数据处理，它是以测量次数充分大为前提的。在正态分布中σ代表标准差,μ代表均值。x=μ即为图像的对称轴,如下图：3σ原则为：p(μ-σ<X<μ+σ)中的

2022-05-22 13:14:06 5113

原创 1、缺失值处理：暴力删除、直接转换、简单插补法

暴力删除、直接转换、简单插补法一.缺失值的类型二.常见的缺失值处理方法2.1、暴力删除、直接转换2.2、简单插补法一.缺失值的类型在生成、采集、计算过程中被遗漏的数据信息，被称为缺失值；并不是表现为缺失状态的值就一定是缺失值，需要根据简单业务逻辑推断。在对缺失数据进行处理前，了解数据缺失的类型十分必要的。完全变量数据集中不含缺失值的变量称为完全变量。不完全变量数据集中含缺失值的变量称为完全变量。从缺失的分布来将缺失可以分为完全随机缺失，随机缺失和完全非随机

2022-05-20 19:10:13 2459

原创统计基础：1.1_正态分布及其检验

这里写目录标题一级目录二级目录三级目录一级目录二级目录三级目录

2022-05-19 21:16:28 6199

原创二、集成学习：Bagging之随机森林算法（RandomForest Algorithm）

随机森林（RandomForest）一、随机森林（RandomForest）基本原理二、Out-Of-Bag Estimate 袋外数据估计泛化误差三、随机森林如何评估特征重要性。四、随机森林如何处理缺失值五、其它常见问题5.1、为什么Bagging算法的效果比单个评估器更好？5.2、为什么Bagging可以降低方差？5.3、Bagging有效的基本条件有哪些？Bagging的效果总是强于弱评估器吗？5.4、Bagging方法可以集成决策树之外的算法吗？5.5、怎样增强Bagging中弱评估器的独立性？5.

2022-05-19 20:29:17 2961

空空如也

空空如也