Sklearn实战
Sklearn基础及实战
少奶奶的猪
python开发,web开发,odoo开发,前端开发,数据库,机器学习
展开
-
sklearn实战-----9.sklearn中的线性回归大家族
1 概述1.1 线性回归大家族回归是一种应用广泛的预测建模技术,这种技术的核心在于预测的结果是连续型变量。决策树,随机森林,支持向量机的分类器等分类算法的预测标签是分类变量,多以{0,1}来表示,而无监督学习算法比如PCA,KMeans并不求解标签,注意加以区别。回归算法源于统计学理论,它可能是机器学习算法中产生最早的算法之一,其在现实中的应用非常广泛,包括使用其他经济指标预测股票市场指数,根据喷射流的特征预测区域内的降水量,根据公司的广告花费预测总销售额,或者根据有机物质中残留的碳-14的量来估计化石原创 2020-07-24 11:23:35 · 1667 阅读 · 0 评论 -
sklearn的train_test_split()各函数参数含义解释
在机器学习中,我们通常将原始数据按照比例分割为“测试集”和“训练集”,从 sklearn.model_selection 中调用train_test_split 函数简单用法如下:X_train,X_test, y_train, y_test =sklearn.model_selection.train_test_split(train_data,train_target,test_size=0.4, random_state=0,stratify=y_train)# train_data:所要划分的原创 2020-05-25 16:44:26 · 10898 阅读 · 0 评论 -
sklearn实战-----8.支持向量机SVM(下)
1 二分类SVC的进阶1.1 SVC用于二分类的原理复习在上周的支持向量SVM(上)中,我们学习了二分类SVC的所有基本知识,包括SVM的原理,二分类SVC的损失函数,拉格朗日函数,拉格朗日对偶函数,预测函数以及这些函数在非线性,软间隔这些情况上的推广,并且引出了核函数这个关键概念。今天,基于我们已经学过的理论,我们继续探索支持向量机的其他性质,并在真实数据集上运用SVM。开始今天的探索之前,我们先来简单回忆一下支持向量机是如何工作的。支持向量机分类器,是在数据空间中找出一个超平面作为决策边界,利用原创 2020-06-16 19:20:27 · 1813 阅读 · 0 评论 -
sklearn实战-----7.支持向量机SVM(上)
1 概述支持向量机(SVM,也称为支持向量网络),是机器学习中获得关注最多的算法没有之一。它源于统计学习理论, 是我们除了集成算法之外,接触的第一个强学习器。它有多强呢?从算法的功能来看,SVM几乎囊括了我们前六周讲解的所有算法的功能:功能有监督学习线性二分类与多分类(Linear Support Vector Classification) 非线性二分类与多分类(Support Vector Classification, SVC) 普通连续型变量的回归(Support Vecto原创 2020-06-16 19:20:14 · 2110 阅读 · 1 评论 -
sklearn实战-----6.聚类算法K-Means
1 概述1.1 无监督学习与聚类算法在过去的五周之内,我们学习了决策树,随机森林,逻辑回归,他们虽然有着不同的功能,但却都属于“有监督学习”的一部分,即是说,模型在训练的时候,即需要特征矩阵X,也需要真实标签y。机器学习当中,还有相当一部分算法属于“无监督学习”,无监督的算法在训练的时候只需要特征矩阵X,不需要标签。我们曾经学过的PCA降维算法就是无监督学习中的一种,聚类算法,也是无监督学习的代表算法之一。聚类算法又叫做“无监督分类”,其目的是将数据划分成有意义或有用的组(或簇)。这种划分可以基于我们原创 2020-06-16 19:20:03 · 2761 阅读 · 1 评论 -
sklearn实战-----5.逻辑回归与评分卡
1 概述1.1 名为“回归”的分类器在过去的四周中,我们接触了不少带“回归”二字的算法,回归树,随机森林的回归,无一例外他们都是区别于分类 算法们,用来处理和预测连续型标签的算法。然而逻辑回归,是一种名为“回归”的线性分类器,其本质是由线性回 归变化而来的,一种广泛使用于分类问题中的广义回归算法。要理解逻辑回归从何而来,得要先理解线性回归。线 性回归是机器学习中简单的的回归算法,它写作一个几乎人人熟悉的方程:z=θ0+θ1x1+θ2x2+...θnxnz=\theta_0+\theta_1x_1+\t原创 2020-06-16 19:19:57 · 3642 阅读 · 6 评论 -
sklearn实战-----4.降维算法PCA和SVD
1 概述1.1 从什么叫“维度”说开来在过去的三周里,我们已经带大家认识了两个算法和数据预处理过程。期间,我们不断提到一些语言,比如说:随 机森林是通过随机抽取特征来建树,以避免高维计算;再比如说,sklearn中导入特征矩阵,必须是至少二维;上 周我们讲解特征工程,还特地提到了,特征选择的目的是通过降维来降低算法的计算成本……这些语言都很正常地 被我用来使用,直到有一天,一个小伙伴问了我,”维度“到底是什么?对于数组和Series来说,维度就是功能shape返回的结果,shape中返回了几个数字,就原创 2020-06-16 19:19:24 · 1639 阅读 · 0 评论 -
sklearn实战-----3.数据预处理和特征工程
1 概述1.1 数据预处理与特征工程想象一下未来美好的一天,你学完了菜菜的课程,成为一个精通各种算法和调参调库的数据挖掘工程师了。某一天 你从你的同事,一位药物研究人员那里,得到了一份病人临床表现的数据。药物研究人员用前四列数据预测一下最 后一数据,还说他要出差几天,可能没办法和你一起研究数据了,希望出差回来以后,可以有个初步分析结果。于 是你就看了看数据,看着很普通,预测连续型变量,好说,导随机森林回归器调出来,调参调呀调,MSE很小,跑 了个还不错的结果。几天后,你同事出差回来了,准备要一起开会原创 2020-06-16 19:19:15 · 2117 阅读 · 1 评论 -
sklearn实战-----2.随机森林
1 概述1.1 集成算法概述集成学习(ensemble learning)是时下非常流行的机器学习算法,它本身不是一个单独的机器学习算法,而是通 过在数据上构建多个模型,集成所有模型的建模结果。基本上所有的机器学习领域都可以看到集成学习的身影,在 现实中集成学习也有相当大的作用,它可以用来做市场营销模拟的建模,统计客户来源,保留和流失,也可用来预 测疾病的风险和病患者的易感性。在现在的各种算法竞赛中,随机森林,梯度提升树(GBDT),Xgboost等集成 算法的身影也随处可见,可见其效果之好,应用之广。原创 2020-06-16 19:19:05 · 1252 阅读 · 0 评论 -
sklearn实战-----1.sklearn入门与决策树
sklearn入门官网:https://scikit-learn.org决策树1.概述1.1决策树是如何工作的决策树(Decision Tree)是一种非参数的有监督学习方法,它能够从一系列有特征和标签的数据中总结出决策规 则,并用树状图的结构来呈现这些规则,以解决分类和回归问题。决策树算法容易理解,适用各种数据,在解决各 种问题时都有良好表现,尤其是以树模型为核心的各种集成算法,在各个行业和领域都有广泛的应用。我们来简单了解一下决策树是如何工作的。决策树算法的本质是一种图结构,我们只需要问一系原创 2020-06-16 19:19:34 · 8329 阅读 · 3 评论