搏努力概形-CSDN博客

原创 python和pandas中的缺失值None、NA和nan及其观测与处理

np.nan：Numpy在读入数据集以后数据会被会转为浮点类型（np.float64）；而字符型由于无法转化为浮点型，只能归并为object类型。：pd.NA是专门表示缺失值的标量，它代表空整数、空布尔值、空字符，这个功能目前处于实验阶段，因此它的行为仍可能会发生变化。它通常用于初始化变量、函数的默认返回值，或者作为占位符，表示某个变量或表达式暂时没有值。：是一个特殊的常量，用于表示缺失或不存在的值，它也是一个对象，有自己的类型——

2024-07-11 23:32:34 1020 1

原创支持向量机 Part 4：支持向量回归原理与python实现——机器学习笔记

* * * The Machine Learning Noting Series * * *1. 支持向量回归的基本思路与优点 ε-带与“管道” 决定“管道”宽度的可调参数ε2. 支持向量回归的目标函数和约束条件目标函数约束条件3. python实现如上左图所示，支持向量机使用核函数给出一个弯曲多变的不规则超平面（中间的曲线即回归线）。这是一个复杂的模型，因其预测结果对训练集中数据的微小波动较为敏感，故预测的鲁棒性差且预测误差较大。支持向量回归同样寻找具有最大

2023-09-22 22:06:55 2672 1

原创支持向量机 Part 3：线性不可分下的支持向量分类与python实现——机器学习笔记

* * * The Machine Learning Noting Series * * *1、解决线性不可分问题的一般解决方式2、支持向量分类克服维灾难的途径4、核函数与线性变换3、python实现将低维空间中线性不可分问题，通过恰当的非线性变换转化为高维空间中的线性可分（使用曲面）问题。例如，将X1，X2这一二维空间上线性不可分的严格不能，进行非线性变换称X1，X2，Z三维空间上的分布，而在三维空间上就可以找到一个平面将两类分开。1）映射。使用特定的非线性映射函数，将原来低维空间上的点映射到M维空间

2023-09-14 20:43:44 909 1

原创支持向量机 Part 2：广义线性可分下的支持向量分类与python实现——机器学习笔记

* * * The Machine Learning Noting Series * * *1. 广义线性可分下的支持向量机构建策略2. 在完全线性可分基础上构建广义线性可分支持向量分类模型第一个新增限制条件：宽松的超平面边界第二个新增限制条件：总松弛度（由进入边界样本产生）的合理限制第三个新增限制条件：松弛变量符号的限制（应为非负数）3. 模型求解与预测4. python实现完全线性可分的支持向量机可将两类样本完全分开，而当两类样本有部分交织在一起时无

2023-09-09 23:10:43 334 1

原创支持向量机 Part 1：完全线性可分下的支持向量分类与python实现——机器学习笔记

支持向量机（Support Vector Machine, SVM）是在统计学习理论上发展起来的一种机器学习方法，在解决小样本、非线性和高维的分类、回归预测问题上有很多优势。支持向量机分为支持向量分类机和支持向量回归机，分别用于输入变量和二分类/数值型输出变量间的数量关系和分类预测，简称支持向量分类（Support Vector Classification, SVC）；同理，支持向量回归（Support Vector Regression, SVR）用于输入变量和输出变量间的数量关系和回归预测。

2023-08-31 11:28:55 369 1

原创梯度提升树算法原理与python实战——机器学习笔记之集成学习PartⅣ

为了便于说明，假设有函数 f(w)=w²+1，现需要求解 f(w) 取最小值时的 w 的值。① 取初始值w(0)=4，计算 f(w) 在w=4时的导数：f'(w=4)=8>0. 此处 f 递增，因此只有减小w取值才能得到更小的f（也就是说，f' 的符号决定了对w的更新方向）。迭代过程中，每个新加入的模型（“联合投票委员会”）都是用于修正当前预测值的增量函数（incremental functions），会不断调整预测值，从而使得迭代预测值不断接近真实值。随着w的不断更新，f逐渐逼近曲线的最小值，最终。

2023-08-08 20:25:13 458 1

原创 SAMME(.R)算法及回归预测中的提升法原理与python实现：弱模型到强模型——机器学习笔记之集成学习PartⅢ

将其拓展到连续性数值范畴，前者派生出AdaBoost.R和AdaBoost.RT等算法，通过改进的分类预测方法解决回归预测问题，而后者改进得到SAMME.R 算法。此例中，平方损失函数下的模型测试误差更低，因此应该选择平方损失函数下的而继承学习预测模型。下面的代码随机生成1000个样本，包括10个输入变量，输出变量服从正态分布，将数据集三七分为训练和测试集后，使用树深度为1的回归树作为弱模型进行集成学习。SAMME.R 算法效率比SAMME 算法更高，在迭代次数较少的情况下即可获得较低的测试误差。

2023-08-01 21:14:06 959 1

原创 AdaBoost.M1 算法原理与python实现：弱模型到强模型——机器学习笔记之集成学习PartⅡ

导航简介AdaBoost.M1算法步骤Python应用举例AdaBoost.M1算法原理的进一步推导一简介之前文章的思路是建立并列的一系列树构成“投票委员会”提高结果的准确性，集成学习的另一个策略是将一系列具有顺序相关的弱模型组成一个强模型，而不会有过拟合的问题。从弱模型到强模型的常见集成学习法有提升法（Boosting）和梯度提升树（Gradient Boosted Decision Tree,GBDT）等。本文主要介绍AdaBoost.M1提升算法。

2023-07-30 21:10:59 956 1

原创随机森林 & bagging袋装法(基于bootstrap重抽样自举法)的原理与python实现——机器学习笔记之集成学习 Part 1

下图为4个输入变量时不同方法的测试误差变化情况，可以看出随着树数的增加，随机森林的误差最小。的缩写，在单个学习器（基于单个bootstrap样本构建的模型，这里是决策树，也可以是贝叶斯分类器，K-邻近等模型）具有高方差和低偏差时很有效。结果如下图所示，可以看出，当输入变量较多时，随着树数的增加，随机森林的优势逐渐显现，测试误差更低。：每个样本，每次抽样被抽到的概率为1/N，抽不到的概率为1-1/N，因此N次均未被抽到的概率为。：对N个样本，进行B次有放回的重抽样形成B个样本，每个样本包含N个数据。

2023-07-15 23:41:14 2839 2

原创训练集与测试集、训练误差与测试误差：泛化误差估计&数据集划分策略——机器学习笔记

* *heachineearningoting泛化误差估计💠训练集：用于训练模型的数据集称为（training set），其中的样本观测称为“袋内观测”。💠训练误差：即经验误差，是基于训练集“袋内观测”建模并计算得到的模型误差。例如，回归中基于训练集（样本量为是基于“袋外观测”的误差，而非训练误差。训练误差作为泛化误差的估计，原因是：①未来的新数据集都是“袋外观测”（Out of Bag，OOB）；②损失函数最小原则下的模型参数估计策略决定了训练误差是基于。

2023-07-11 15:43:49 1308 1

原创决策树的原理、方法以及python实现——机器学习笔记

考虑这样一个药品筛选问题，大批患有同种疾病的不同病人，服用5种候选药后取得同样的效果，现有每个病人服药前的几项生理指标数据，要通过这些数据来得到选药的建议，即要根据任何一个此类病人的生理指标来得到最合适药物的建议，这就可以使用决策树方法，建立以药物为输出变量，以生理指标为输入变量的多分类预测模型。右侧图为一个典型的树深度等于4的决策树。每个椭圆为树的节点，有向箭头将各层节点连在一起构成树的分支，一个分支的上下节点分别成为父、子节点，每个父节点下均仅有2个子节点的称为2叉树，2个以上节点的为多叉树。

2023-07-06 16:54:37 3732 5

qq_45259021的博客

原创 python和pandas中的缺失值None、NA和nan及其观测与处理

原创支持向量机 Part 4：支持向量回归原理与python实现——机器学习笔记

原创支持向量机 Part 3：线性不可分下的支持向量分类与python实现——机器学习笔记

原创支持向量机 Part 2：广义线性可分下的支持向量分类与python实现——机器学习笔记

原创支持向量机 Part 1：完全线性可分下的支持向量分类与python实现——机器学习笔记

原创梯度提升树算法原理与python实战——机器学习笔记之集成学习PartⅣ

原创 SAMME(.R)算法及回归预测中的提升法原理与python实现：弱模型到强模型——机器学习笔记之集成学习PartⅢ

原创 AdaBoost.M1 算法原理与python实现：弱模型到强模型——机器学习笔记之集成学习PartⅡ

原创随机森林 & bagging袋装法(基于bootstrap重抽样自举法)的原理与python实现——机器学习笔记之集成学习 Part 1

原创训练集与测试集、训练误差与测试误差：泛化误差估计&数据集划分策略——机器学习笔记

原创决策树的原理、方法以及python实现——机器学习笔记

原创常见概率分布间的联系与发展: 从简单分布推导出复杂分布

原创 Bootstrap自助抽样法的原理、应用与python实现

原创通过anaconda升级、安装jupyter notebook内核kernel的python版本

原创因子分析模型（主成分解）、及与主成分分析模型的联系与区别（附详细案例）

原创矩阵的谱分解（详细推导步骤~~~特征值分解特征向量

原创数理统计学导论(第8版)第七章充分性(Chapter7 Sufficiency) 知识小结、期末复习笔记（待续

原创样本离差平方和期望的矩阵算法：应用完备性 [Matrix Approach for ExpectedSumofSquareDeviations of samples by completeness]

空空如也

空空如也