Fei-Fei-Xing-CSDN博客

原创 sklearn与XGBoost

1.预备知识（1）XGBoost全称eXtreme Gradient Boosting，可译为极限梯度提升算法。和传统的梯度提升算法相比，XGBoost进行了许多改进，是一个集大成的机器学习算法，它能够比其他使用梯度提升的集成算法更加快速，并且已经被认为是在分类和回归上都拥有超高性能的先进评估器。（2）XGBoost的三大板块XGBoost本身的核心是基于梯度提升树实现的集成算法，整体来说...

2020-04-19 23:33:48 919

1.概述（1）真正的概率分类器——专注于分类的算法算法得出的结论，永远不是100%确定的，更多的是判断出一种“样本的标签更可能是某类的可能性”，而不是一种“确定”。每种算法使用不同的指标来衡量这种可能性。决策树使用的是叶子节点上占比较多的标签在这个叶子节点上所占的比例（接口predict_proba调用）；逻辑回归使用的是sigmoid函数压缩后的似然（接口predict_proba调用）；...

2020-04-15 21:40:53 291

原创 sklearn中的线性回归大家族

1.多元线性回归（1）基本原理多元线性回归预测函数的本质是我们需要构建的模型，而构建预测函数的核心就是找到模型的参数向量ω。（2）在逻辑回归和SVM中，都是先定义了损失函数，然后通过最小化损失函数或损失函数的某种变化来求解参数向量，以此将单纯的求解问题转化为一个最优化问题。在sklearn中，将损失函数称之为RSS残差平方和。最小二乘法求解多元线性回归的参数，是通过最小化真实值和预测值之间...

2020-04-14 15:12:44 226

原创案例二：SVC真实数据案例——预测明天是否会下雨

1.导库导数据，探索特征（1）将特征矩阵和标签分开，确定X和Y（2）探索数据类型X.info()（3）探索缺失值——每个特征中缺失值的比例X.isnull.mean()（4）探索标签的分类np.unique(Y)2.分集，并优先探索标签在现实中，应当先分训练集和测试集，再进行数据预处理。因为测试集在现实中往往是不可获得的，或者被假设为不可不可获取的，我们不希望建模的任何过程...

2020-04-13 20:46:22 1608

原创 sklearn中的支持向量机SVM（下）

二分类SVC中的样本不均衡问题：重要参数class_weight1.针对样本不均衡问题，首先要让算法意识到数据的标签是不均衡的，通过施加一些惩罚或者改变样本本身，来让模型向着捕获少数类的方向建模，然后，需要改进模型评估指标，使用更加针对少数类的指标来优化模型。在支持向量机中，样本的数量对计算速度影响巨大，因此我们不能使用上采样下采样方法，而应要大力依赖调节样本均衡的参数：SVC类中的class...

2020-04-13 12:05:48 283

原创 sklearn中的支持向量机SVM（上）

1.概述（1）SVM是最接近深度学习的机器学习算法。线性SVM可以看成是神经网络的单个神经元，非线性的SVM可以看成两层的神经网络，非线性SVM中如果添加多个核函数，则可以模仿多层的神经网络。（2）边际很小时，模型容易在训练集上表现很好，却在测试集上表现糟糕，即容易“过拟合”；拥有更大边际的决策边界在分类中的泛化误差较小。因此，我们在寻找决策边界的时候，希望边际越大越好。支持向量机，就是通过...

2020-04-12 17:38:34 237

原创聚类算法K-Means

1.无监督学习与聚类算法无监督算法在训练的时候只需要特征矩阵X，不需要标签，算法通过特征的相似度对样本进行分组。我们学过的PCA降维算法就是无监督学习的一种，聚类算法也是无监督学习的代表算法之一。2.KMeansKMeans是最简单的聚类算法，没有之一。KMeans是如何工作的（1）KMeans的核心任务根据我们设定好的K，找出K个最优的质心，并将离这些质心最近的数据分别分配到这些质...

2020-04-11 11:59:21 996 1

原创案例1：用逻辑回归制作评分卡

流程：获取数据→数据清洗，特征工程→模型开发→模型检验与评估→模型上线→监测与报告1.导库，获取数据2.探索数据与数据预处理第一步：探索数据data.head()data.shape()data.info()第二步：去除重复值当特征很多时，两个样本的所有特征值都一样的可能性是微乎其微的，因此需要删除重复的样本。步骤：（1）删除重复行，并直接覆盖原数据data.drop_d...

2020-04-10 22:06:50 1001

原创逻辑回归

概述1.名为“回归”的分类器

2020-04-10 10:40:03 572

原创降维算法

1.概述降维算法中的“降维”，指的是：降低特征矩阵中特征的数量。降维的目的是：让算法运算更快，效果更好，还有另一种需求：数据可视化。SVD和PCA（主成分分析）是矩阵分解算法中的入门算法。PCA与SVD我们希望能够找出一种方法来帮助我们衡量特征上所带的信息，让我们在姜维的过程中，即能够减少特征的数量，又能够保留大部分的信息——将那些带有重复信息的特征合并，并删除那些带有无效信息的特征等—...

2020-04-07 23:25:10 852

原创数据预处理和特征工程

概述数据挖掘的五大步骤：一，获取数据；二，数据预处理；三，特征工程；四，建模，测试模型并预测出结果；五，上线，验证模型效果。数据预处理数据无量纲化数据无量纲化：将不同规格的数据转换到同一规格，或不同分布的数据转换到某个特定分布。线性的无量纲化包括“中心化处理”和“缩放处理”。中心化的本质是让数据样本平移到某个位置；缩放的本质是将数据固定在某个范围内，取对数也算一种缩放处理。1...

2020-04-07 20:06:01 501

原创随机森林

集成算法概述1.概念集成算法本身不是一个单独的机器学习算法，而是通过在数据上构建多个模型，集成所有模型的建模结果。2.集成算法的目的：考虑多个评估器的建模结果，汇总之后得到一个综合的结果，以此来获取比单个模型更好的回归或分类表现。3.三类集成算法：①装袋法。代表模型——随机森林②提升法。代表模型——Adaboost和梯度提升树③stackingRandomForestClassi...

2020-04-06 21:26:10 293

原创 Decision Tree

1.决策树是如何工作的决策树是一种非参数的有监督学习方法。决策树核心解决两个问题：①如何从数据表中找出最佳节点和最佳分枝②如何让决策树停止生长，防止过拟合2.Decision Tree与红酒数据集2.1.1 criterion信息熵（Entropy）和基尼系数(Gini Impurity)相比基尼系数，信息熵对不纯度更加敏感，对不纯度的惩罚最强。通常选取基尼系数就可以。当数据维度...

2020-03-17 18:54:14 209

weixin_43073590的博客