sklearn实战
文章平均质量分 97
Litra LIN
这个作者很懒,什么都没留下…
展开
-
sklearn实战之聚类算法
六、聚类算法0、概述0.1 无监督学习与聚类算法在之前的五篇文章中,我们学习了决策树,逻辑回归,随机森林,它们虽然有着不同的功能,但却都属于“有监督学习”的一部分,即是说,模型在训练的时候,即需要特征矩阵X,也需要真实标签y。机器学习当中,还有相当一部分算法属于“无监督学习“。无监督的算法在训练的时候只需要特征矩阵X,不需要标签。我们曾经学过的PCA降维算法就是无监督学习中的一种,聚类算法,也是无监督学习的代表算法之一。聚类算法又叫做”无监督分类“,其目的是将数据划分为有意义的或有用的组(或簇)。这原创 2021-08-25 10:05:21 · 19711 阅读 · 1 评论 -
sklearn实战之逻辑回归与制作评分卡
五、逻辑回归与评分卡0、概述0.1 名为“回归”的分类器在之前的4篇文章中,我们接触了不少带“回归”二字的算法,回归树,随机森林的回归,无一例外他们都是区分与于分类的算法,用来处理和预测连续型标签的算法。然而逻辑回归,是一种名为“回归”的线性分类器,其本质是由线性回归变化而来的,一种广泛使用于分类问题中的广义线性回归算法。要理解逻辑回归从何而来,得要先理解线性回归。线性回归是机器学习中最简单的回国算法,它写作一个几乎人人都知道的方程:z=θ0+θ1x1+θ2x2+…+θnxnz=\theta_0+原创 2021-08-23 14:39:04 · 2375 阅读 · 3 评论 -
sklearn实战之降维算法PCA与SVD
四、sklearn中的降维算法PCA和SVD1、sklearn中的降维算法sklearn中降维算法都被包括在模块decomposition中,这个模块本质是一个矩阵分解模块。在过去的十年中,如果要讨论算法进步的先锋,矩阵分解可以说是独树一帜。矩阵分解可以用在降维,深度学习,聚类分析,数据预处理,低纬度特征学习,推荐系统,大数据分析风领域中。在2006年,Netflix举办了一个奖金为100万美元的推荐系统算法的比赛,最后的获奖者就使用了矩阵分解中的明星:SVD分解(奇异值分解)。类说明原创 2021-08-21 22:00:01 · 4127 阅读 · 0 评论 -
sklearn实战之数据预处理与特征工程
三、数据预处理与特征工0、概述数据挖掘的五大流程:1、获取数据2、数据预处理数据预处理是从数据中检测,纠正或删除损坏,不准确或不用于模型的记录过程可能面对的问题是:数据类型不同,比如有的是文字,有的是数字,有的含时间序列,有的连续,有的间断。也有可能,数据的质量不行,有噪声,有异常,有缺失,数据出错,量纲不易,有重复,数据是偏态,数据量太大或者太小。数据预处理的目的是:让数据适应模型,匹配模型的需求。3、特征工程特征工程是将原始数据转换为更能代表预测模型潜在问题的特征的过程,可以通过挑选最原创 2021-08-17 17:01:49 · 2154 阅读 · 0 评论 -
sklearn实战之随机森林
二、随机森林0、概述0.1集成算法概述集成学习是时下非常流行的机器学习算法,它本身不是一个单独的机器学习模型,而是在以往的数据上构建多个模型,集成所有模型的建模结果,基本上所有机器学习领域都可以看到集成学习的身影,在显示中集成学习也有相当大的作用,它可以用来做市场营销模拟的建模,统计客户俩元,保留和损失,也可以用来预测疾病的风险和患病者的易感性。在现在的各种算法竞赛中,随机森林,梯度提升树,XGBoost等集成算法的身影也随处可见,可见其效果之好,应用之广。集成算法的目标:集成算法会考虑多个评估器的原创 2021-08-15 19:59:51 · 28330 阅读 · 1 评论 -
sklearn实战之决策树
一、决策树0、决策树简介0.1决策树是如何工作的决策树(Decision Tree)是一种非参数的有监督学习方法,它能够从一系列有特征和标签的数据中总结出决策规 则,并用树状图的结构来呈现这些规则,以解决分类和回归问题。决策树算法容易理解,适用各种数据,在解决各 种问题时都有良好表现,尤其是以树模型为核心的各种集成算法,在各个行业和领域都有广泛的应用。 我们来简单了解一下决策树是如何工作的。决策树算法的本质是一种图结构,我们只需要问一系列问题就可以对数 据进行分类了。比如说,来看看下面这组数据集,这是原创 2021-08-11 22:07:38 · 4636 阅读 · 0 评论
分享