自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(7)
  • 收藏
  • 关注

原创 fate:pipeline 工作原理解析

fate pipeline方式提交原理解析,与传统dsl方式的对应关系。

2022-01-30 11:34:56 2163

原创 【特征工程】卡方分箱原理和python代码(附带训练数据和测试结果),适合二分类和多分类

背景介绍本文针对有一定基础的数据分析人员,专门想了解卡方分箱原理和寻找能直接运行的代码的人员。分箱是特征工程中常见的操作,也就是将某一个变量划分为多个区间,比如对年龄分箱,1-10岁,10-40岁,40+岁。卡方分箱就是用来寻找最优分割点的方法。本文介绍了卡方分箱原理、python代码、使用数据集(有数据集构造代码)测试分箱效果几个部分。注:这里保证代码肯定可以直接运行,并附上了检验分箱原理的代码。如果有注释不清楚的,欢迎一起讨论。卡方分箱原理卡方分箱是自底向上的(即基于合并的)数据离散化方法。

2020-05-28 21:50:18 5913

原创 决策树原理详解(无基础的同样可以看懂)

一. 决策树简介决策树(Decision Tree),它是一种以树形数据结构来展示决策规则和分类结果的模型,作为一种归纳学习算法,其重点是将看似无序、杂乱的已知数据,通过某种技术手段将它们转化成可以预测未知数据的树状模型,每一条从根结点(对最终分类结果贡献最大的属性)到叶子结点(最终分类结果)的路径都代表一条决策的规则。决策树就是形如下图的结构(机器学习西瓜书的图):二. 决策树的基本流程...

2020-02-27 15:06:36 58852 13

原创 朴素贝叶斯算法(带例题解释)

朴素贝叶斯算法(Naive Bayesian algorithm) 是应用最为广泛的分类算法之一,在垃圾邮件分类等场景展露出了非常优秀的性能。朴素贝叶斯公式来历朴素贝叶斯,名字中的朴素二字就代表着该算法对概率事件做了很大的简化,简化内容就是各个要素之间是相互独立的。比如今天刮风和气温低,两个要素导致了不下雨的结果。实际上刮风可能导致气温低,而且刮风对于天晴的影响会更大,朴素贝叶斯认为刮风和气...

2020-02-23 23:18:04 50174 12

原创 感知机原理及其Gram矩阵的理解

本文借鉴统计学习方法里的内容。感知机介绍:感知机(perceptron)是二类分类的线性分类模型,其输入为实例的特征向量,输出为实例的类别,取+1和-1。感知机用公式表示如下:其中w和b是要学习的参数。w*x+b是一个多维的超平面,维度由x决定。感知机可以如下理解,寻找一个超平面,在该平面的两侧分别标记为两类,即+1和-1。以二维图展示如下:以x1+x2-2=0直线分割成两部分,直线上面...

2020-02-12 12:55:55 1887

原创 学习曲线的绘制(个人自定义源码)

学习曲线:随着训练样本的增多,模型在训练集和测试集的表现趋于一致。根据训练集合测试集的表现可以判断模型是过拟合和欠拟合。查了很多关于sklearn的learning_curve的资料,没有找到其内部原理的文章,因此根据学习曲线的概念手动编写代码。学习曲线的绘制过程如下:(1)求出训练集的大小t=len(x_train)。(2)训练集是一个长度为t的数据集,首先选择第一个数据进行建模,得到...

2019-12-24 16:04:22 1114

原创 过拟合与欠拟合

过拟合与欠拟合及学习曲线的绘制过拟合与欠拟合图解欠拟合:个人理解就是由于数据少、正则化太厉害、模型复杂度太简单等原因,导致模型没有学习到足够的规律,准确率与模型可达到的准确率差距较大。但是模型在训练集和测试集的曲线趋势是正常收敛的。解决方法为有:增加特征,寻找与标签相关性较大的特征,在保证特征没有共线性的前提下,增加特征的数量;减少正则化,正则化目的是在牺牲训练集上部分准确率的前提下...

2019-12-24 12:09:32 231

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除