自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(18)
  • 收藏
  • 关注

原创 python和pandas中的缺失值None、NA和nan及其观测与处理

np.nan:Numpy在读入数据集以后数据会被会转为浮点类型(np.float64);而字符型由于无法转化为浮点型,只能归并为object类型。:pd.NA是专门表示缺失值的标量,它代表空整数、空布尔值、空字符,这个功能目前处于实验阶段,因此它的行为仍可能会发生变化。它通常用于初始化变量、函数的默认返回值,或者作为占位符,表示某个变量或表达式暂时没有值。:是一个特殊的常量,用于表示缺失或不存在的值,它也是一个对象,有自己的类型——

2024-07-11 23:32:34 373

原创 支持向量机 Part 4:支持向量回归原理与python实现——机器学习笔记

* * * The Machine Learning Noting Series * * *1. 支持向量回归的基本思路与优点 ε-带与“管道” 决定“管道”宽度的可调参数ε2. 支持向量回归的目标函数和约束条件 目标函数 约束条件3. python实现如上左图所示,支持向量机使用核函数给出一个弯曲多变的不规则超平面(中间的曲线即回归线)。这是一个复杂的模型,因其预测结果对训练集中数据的微小波动较为敏感,故预测的鲁棒性差且预测误差较大。支持向量回归同样寻找具有最大

2023-09-22 22:06:55 2364 1

原创 支持向量机 Part 3:线性不可分下的支持向量分类与python实现——机器学习笔记

* * * The Machine Learning Noting Series * * *1、解决线性不可分问题的一般解决方式2、支持向量分类克服维灾难的途径4、核函数与线性变换3、python实现将低维空间中线性不可分问题,通过恰当的非线性变换转化为高维空间中的线性可分(使用曲面)问题。例如,将X1,X2这一二维空间上线性不可分的严格不能,进行非线性变换称X1,X2,Z三维空间上的分布,而在三维空间上就可以找到一个平面将两类分开。1)映射。使用特定的非线性映射函数,将原来低维空间上的点映射到M维空间

2023-09-14 20:43:44 664 1

原创 支持向量机 Part 2:广义线性可分下的支持向量分类与python实现——机器学习笔记

* * * The Machine Learning Noting Series * * *1. 广义线性可分下的支持向量机构建策略2. 在完全线性可分基础上构建广义线性可分支持向量分类模型 第一个新增限制条件:宽松的超平面边界 第二个新增限制条件:总松弛度(由进入边界样本产生)的合理限制 第三个新增限制条件:松弛变量符号的限制(应为非负数)3. 模型求解与预测4. python实现 完全线性可分的支持向量机可将两类样本完全分开,而当两类样本有部分交织在一起时无

2023-09-09 23:10:43 254 1

原创 支持向量机 Part 1:完全线性可分下的支持向量分类与python实现——机器学习笔记

支持向量机(Support Vector Machine, SVM)是在统计学习理论上发展起来的一种机器学习方法,在解决小样本、非线性和高维的分类、回归预测问题上有很多优势。支持向量机分为支持向量分类机和支持向量回归机,分别用于输入变量和二分类/数值型输出变量间的数量关系和分类预测,简称支持向量分类(Support Vector Classification, SVC);同理,支持向量回归(Support Vector Regression, SVR)用于输入变量和输出变量间的数量关系和回归预测。

2023-08-31 11:28:55 259 1

原创 梯度提升树算法原理与python实战——机器学习笔记之集成学习PartⅣ

为了便于说明,假设有函数 f(w)=w²+1,现需要求解 f(w) 取最小值时的 w 的值。① 取初始值w(0)=4, 计算 f(w) 在w=4时的导数:f'(w=4)=8>0. 此处 f 递增,因此只有减小w取值才能得到更小的f(也就是说,f' 的符号决定了对w的更新方向)。迭代过程中,每个新加入的模型(“联合投票委员会”)都是用于修正当前预测值的增量函数(incremental functions),会不断调整预测值,从而使得迭代预测值不断接近真实值。随着w的不断更新,f逐渐逼近曲线的最小值,最终。

2023-08-08 20:25:13 327 1

原创 SAMME(.R)算法及回归预测中的提升法原理与python实现:弱模型到强模型——机器学习笔记之集成学习PartⅢ

将其拓展到连续性数值范畴,前者派生出AdaBoost.R和AdaBoost.RT等算法,通过改进的分类预测方法解决回归预测问题,而后者改进得到SAMME.R 算法。此例中,平方损失函数下的模型测试误差更低,因此应该选择平方损失函数下的而继承学习预测模型。下面的代码随机生成1000个样本,包括10个输入变量,输出变量服从正态分布,将数据集三七分为训练和测试集后,使用树深度为1的回归树作为弱模型进行集成学习。SAMME.R 算法效率比SAMME 算法更高,在迭代次数较少的情况下即可获得较低的测试误差。

2023-08-01 21:14:06 644 1

原创 AdaBoost.M1 算法原理与python实现:弱模型到强模型——机器学习笔记之集成学习PartⅡ

导航简介AdaBoost.M1算法步骤Python应用举例AdaBoost.M1算法原理的进一步推导一 简介之前文章的思路是建立并列的一系列树构成“投票委员会”提高结果的准确性,集成学习的另一个策略是将一系列具有顺序相关的弱模型组成一个强模型,而不会有过拟合的问题。从弱模型到强模型的常见集成学习法有提升法(Boosting)和梯度提升树(Gradient Boosted Decision Tree,GBDT)等。本文主要介绍AdaBoost.M1提升算法。

2023-07-30 21:10:59 687 1

原创 随机森林 & bagging袋装法(基于bootstrap重抽样自举法)的原理与python实现——机器学习笔记之集成学习 Part 1

下图为4个输入变量时不同方法的测试误差变化情况,可以看出随着树数的增加,随机森林的误差最小。的缩写,在单个学习器(基于单个bootstrap样本构建的模型,这里是决策树,也可以是贝叶斯分类器,K-邻近等模型)具有高方差和低偏差时很有效。结果如下图所示,可以看出,当输入变量较多时,随着树数的增加,随机森林的优势逐渐显现,测试误差更低。:每个样本,每次抽样被抽到的概率为1/N,抽不到的概率为1-1/N,因此N次均未被抽到的概率为。:对N个样本,进行B次有放回的重抽样形成B个样本,每个样本包含N个数据。

2023-07-15 23:41:14 2486 2

原创 训练集与测试集、训练误差与测试误差:泛化误差估计&数据集划分策略——机器学习笔记

* *heachineearningoting泛化误差估计💠训练集:用于训练模型的数据集称为(training set),其中的样本观测称为“袋内观测”。💠训练误差:即经验误差,是基于训练集“袋内观测”建模并计算得到的模型误差。例如,回归中基于训练集(样本量为是基于“袋外观测”的误差,而非训练误差。训练误差作为泛化误差的估计,原因是:①未来的新数据集都是“袋外观测”(Out of Bag,OOB);②损失函数最小原则下的模型参数估计策略决定了训练误差是基于。

2023-07-11 15:43:49 873 1

原创 决策树的原理、方法以及python实现——机器学习笔记

考虑这样一个药品筛选问题,大批患有同种疾病的不同病人,服用5种候选药后取得同样的效果,现有每个病人服药前的几项生理指标数据,要通过这些数据来得到选药的建议,即要根据任何一个此类病人的生理指标来得到最合适药物的建议,这就可以使用决策树方法,建立以药物为输出变量,以生理指标为输入变量的多分类预测模型。右侧图为一个典型的树深度等于4的决策树。每个椭圆为树的节点,有向箭头将各层节点连在一起构成树的分支,一个分支的上下节点分别成为父、子节点,每个父节点下均仅有2个子节点的称为2叉树,2个以上节点的为多叉树。

2023-07-06 16:54:37 3514 4

原创 常见概率分布间的联系与发展: 从简单分布推导出复杂分布

看了很多概率统计教材并没有详细介绍概率分布之间的关系以及如何由简单分布推导出复杂分布,网上有很多相关的贴文,我也来填个坑。:-)

2023-04-06 00:52:16 848

原创 Bootstrap自助抽样法的原理、应用与python实现

本文讲述bootstrap的原理,应用以及python实现

2023-01-18 20:00:50 7719 1

原创 通过anaconda升级、安装jupyter notebook内核kernel的python版本

用anaconda升级、安装jupyter notebook内核kernel的python版本

2022-06-18 16:15:15 8412 3

原创 因子分析模型(主成分解)、及与主成分分析模型的联系与区别(附详细案例)

* * * * * * * *因子分析是主成分分析的推广和发展,它也是多元统计分析中将为的一种方法. 因子分析是研究相关阵和或协方差阵的内部依赖关系,它将多个变量综合为少数几个因子,以再现原始变量与因子之间的相关关系.因子分析的思想一般认为始于Charles Spearman 于1904年发表的文章,他提出用这种方法来解决智力测验得分的统计分析. 目前因子分析在心理学、医学、地质学和经济学等领域都取得了成功的应用。* * * * * *导航1 正交因子模型 1....

2022-01-20 22:51:55 4145

原创 矩阵的谱分解 (详细推导步骤~~~特征值分解特征向量

矩阵的谱分解、给出详细推导步骤!!!矩阵分解是指将一个矩阵写成结构比较简单的或性质比较熟悉的另一些矩阵的乘积。

2022-01-20 00:30:18 13509

原创 数理统计学导论(第8版)第七章充分性(Chapter7 Sufficiency) 知识小结、期末复习笔记 (待续

7.1 估计量品质测量① 极小方差无偏估计量(MVUE, Minimum Variance Unbiased Estimator)定义: 有 的 , 若统计量 是无偏的,且 的方差 的任何其他无偏估计量的方差,那么称 为 的MVUE.②决策函数(规则): 若 为 的点估计, 为 观测值的函数,函数 决定了 的点估计之值,从而称 为决策函数或决策规则(decision function/rule),观测值 则为一个决策(decis......

2022-01-18 23:22:29 1889 1

原创 样本离差平方和期望的矩阵算法:应用完备性 [Matrix Approach for ExpectedSumofSquareDeviations of samples by completeness]

样本离差平方和的数学期望: 这里的 为取自统一整体的 且 .一般的求法是展开平方项再应用数学期望的性质来求解:原式 ,其中第一项 ,其余项之和 .这样的运算适合单组的样本 . 对于样本 ,可将整个样本的取值域视为其完备事件组的值域,即可将单个样本视为取自完备事件组,数学表达为: 其中 为取值向量, 位于其中第 个位置.运用上述概念,有:对于向量 有 :...

2021-11-02 20:46:55 1696

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除