自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(10)
  • 收藏
  • 关注

原创 数据预处理—数据归一化/标准化

以上就是的数据归一化和标准化比较常用的处理方式,相对于归一化,我个人是更喜欢用标准化的,因为归一化更容易受到异常值的影响,而标准化相对来说更稳定,标准化后的数据符合标准正态分布,从统计学上说也是数据质量很好的状态~Adaboost极易受异常值的影响,归一化可以减少异常值对于算法精度的影响,而且Adaboost的基学习器可以自定义,如果基学习器需要归一化,那么Adaboost就是需要归一化的。线性回归、支持向量机、KNN、K-Means都是一些基于距离度量的算法,因此是需要进行数据归一化的;

2023-06-21 11:09:05 2154

原创 统计基础知识—数据类型(下)

指的是非众数组的频数占总的频数的比例,还是上面的例子,比如职业,假设我们的样本包含的职业共有工人、白领、医生三种,其对应的频数分别为100/200/300,众数为医生,那么职业的异众比率=(工人+白领)/(工人+白领+医生)=300/600=0.5。中位数是把数据排序后处于50%位置对应的数,上文求的中位数为3,上四分位数和下四分位数分别对应25%和75%的数据,分别求出为2和3,也就是说泰坦尼克号上买得起2等座的乘客已经超越了大概75%的人了。

2022-12-28 11:21:24 4009 1

原创 sklearn实现GBDT算法(分类)

阿喽哈~小天才们,今天我们聊一聊GBDT上一篇文章我们详细地说了GBDT算法原理,包括为什么拟合负梯度、负梯度为何可以替代残差、二分类GBDT算法公式和实例演算,感兴趣的童鞋请移步具体算法公式啥的这里就不赘述啦,大家就自行学习理解叭,我们今天主要是说如何使用sklearn包来实现GBDT以及简单的调参演示,话不多说上代码~

2022-11-14 16:05:58 5231

原创 GBDT算法详解&算法实例(分类算法)

哈喽小天才们~今天和大家来唠一唠GBDT,对于怕麻烦的我,写这篇文章可是下了很大的决心,因为公式实在是太多啦o(╥﹏╥)o之前写了几篇关于机器学习的代码实操,原理部分基本上都是几行一大段就简述了,今天我打算好好写一写GBDT的算法原理,毕竟是集成算法的代表选手,还是要尊重一下的本人之前对GBDT的算法并没有很深入的推算过,所以借着这个机会,整理一下我的学习笔记,把之前一带而过的公式推导手推了一遍,同时也希望这篇文章能帮到还在GBDT算法原理徘徊的姐妹们,别犹豫了,拿起纸笔加入我吧hhhh。

2022-09-30 11:40:56 7890 3

原创 统计基础知识之数据类型(上)

传统意义上,数据就是类似销量、平台曝光率或是身高体重性别之类的,但随着大数据时代的到来,大家对于数据的认识越来越深刻,数据也不再是传统意义上的定义,除了常见的数字是数据以外,文字是数据,图片是数据,声音也是数据。

2022-08-25 17:08:52 3597

原创 sklearn实现Adaboost算法(分类)

阿喽哈~小天才们,今天我们聊一聊Adaboost上一篇文章我们说了如何去实现随机森林,随机森林是集成学习中bagging算法的代表作,感兴趣的童鞋请移步今天要说的Adaboost算是boosting中比较元老级别的算法了,我们先来说说boosting算法的特点吧通过降低整体的偏差来降低泛化误差,因此被称为提升法相对于bagging,boosting算法在原理和操作上难度都更大由于boosting算法专注于降低与真实值之间的偏差,因此boosting在模型效果上表现突出。.........

2022-08-11 14:00:38 3224 2

原创 sklearn实现随机森林(分类算法)

阿喽哈~小伙伴们,今天我们来唠一唠随机森林 ♣ ♣ ♣随机森林应该是很多小伙伴们在学机器学习算法时最先接触到的集成算法,我们先简单介绍一下集成学习的大家族吧: 在Bagging集成中,需要并行建立多个弱评估器(非线性算法),然后综合多个弱评估器的结果进行输出: 随机森林是bagging家族的代表算法,它的算法思想体现在它的名字上:“随机”和“森林”。首先“森林”是指随机森林的所有基学习器都是决策树,“随机”是指随机从原样本集中抽取样本和特征来训练,并不会使用所有的样本和特征,每棵树独立地有放回抽样,这就保

2022-07-11 11:25:13 14186 4

原创 sklearn实现决策树(分类树)

阿喽哈~小伙伴们,今天我们来唠一唠决策树 ♣ ♣ ♣决策树应该是很多小伙伴入门机器学习的时候最先接触到的分类算法之一,决策树分为分类树和回归树,今天我们只说分类树~简单回顾一下分类树的算法原理:分类树的底层算法分为三种,分别是ID3, ID4.5和CART树。ID3算法以信息增益来决定每一次分裂的节点,它不能处理连续型变量,也不可以剪枝; ID4.5算法为了克服ID3算法的弊端(信息增益倾向划分拥有较多属性的特征,举个极端的例子:比如身份证号列),以信息增益率来决定划分的特征节点,它可以处理连

2022-06-07 14:50:06 4128 6

原创 sklearn实现逻辑回归

逻辑回归(logistics regression)属于机器学习中的监督算法,虽然名字中带有“回归”二字,但却干着分类的活~这主要是由于sigmod和softmax函数的特点,可以将任意实数映射到(0,1)区间,这样我们就可以得到一个概率值,根据概率的大小,再结合定下的阈值,就可以进行分类。具体的理论就不多说啦,这里主要介绍Python中的sklearn如何实现二分类逻辑回归。来,话不多说,上代码~一、导入各种包import numpy as npimport matplotlib.pyplot

2022-05-18 17:27:25 4561

原创 成功解决TPOT下载read time out的问题

TPOT是Python的自动机器学习工具,本来想尝试用TPOT去调参的,结果卡在第一步,下载总是报错,如下:一直都是报各种time out error,废话不多说,直接说我的解决方法,还是得科学上网哦各位~首先就是各种更新下载哦pip install --upgrade pipconda install numpy scipy scikit-learn pandas joblib pip insatll deap update_checker tqdm stopit最后,就可以

2022-05-16 13:11:21 352 1

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除