机器学习 Sklearn
文章平均质量分 92
机器学习
骑着蜗牛ひ追导弹'
鲸落于海,星沉于洼,风隐于密林,蝉鸣漏进夏至。
展开
-
【skLearn 降维算法】PCA
文章目录降维算法 PCA一、数据维度概念二、skLearn中的降维算法三、PCA与SVD① 降维的实现步骤解析② 重要参数n_components降维算法 PCA一、数据维度概念对于数组和Series来说,维度就是功能shape返回的结果,shape中返回了几个数字,就是几维。索引以外的数据,不分行列的叫一维(此时shape返回唯一的维度上的数据个数),有行列之分叫二维(shape返回行x列),也称为表。一张表最多二维,复数的表构成了更高的维度。当一个数组中存在2张3行4列的表时,shape..原创 2021-02-24 21:15:12 · 1500 阅读 · 0 评论 -
【skLearn 数据预处理和特征工程】特征工程
文章目录skLearn 数据预处理和特征工程:特征工程skLearn 数据预处理和特征工程:特征工程返回顶部原创 2021-02-16 23:54:11 · 477 阅读 · 0 评论 -
【skLearn 数据预处理和特征工程】数据预处理
文章目录skLearn中的数据预处理和特征工程一、数据预处理 Preprocessing & Impute① 数据无量纲化preprocessing.MinMaxScalerpreprocessing.StandardScaler② 缺失值处理impute.SimpleImputerskLearn中的数据预处理和特征工程数据挖掘的五大流程1. 获取数据2. 数据预处理 数据预处理是从数据中检测、纠正或删除损坏,不准确或..原创 2021-02-15 23:53:17 · 529 阅读 · 0 评论 -
机器学习调参基本思想
文章目录机器学习调参基本思想一、泛化误差二、调参顺序表三、偏差 VS 方差♦ 偏差、方差概念机器学习调参基本思想正确的调参思路:模型调参,第一步是要找准目标:我们要做什么?一般来说,这个目标是提升某个模型评估指标,比如对于随机森林来说,我们想要提升的是模型在未知数据上的准确率(由score或oob_score_来衡量)。找准了这个目标,我们就需要思考:模型在未知数据上的准确率受什么因素影响?在机器学习中,我们用来衡量模型在未知数据上的准确率的指标,叫做泛化误差(Genelization err..原创 2021-02-13 21:40:59 · 297 阅读 · 0 评论 -
【skLearn分类、回归算法】随机森林回归器 RandomForestRegressor
文章目录随机森林回归器 RandomForestRegressor① 重要参数、属性及接口② 简单使用 ---- 波士顿房价随机森林回归验证补充 --- 查看所有模型评估(打分)的列表随机森林回归器 RandomForestRegressorclass sklearn.ensemble.RandomForestRegressor(n_estimators=100, *, criterion='mse', max_depth=None, min_samples_split=2, min_sampl..原创 2021-02-09 16:48:57 · 3278 阅读 · 0 评论 -
【skLearn分类、回归算法】随机森林分类器 RandomForestClassifier
文章目录随机森林分类器 RandomForestClassifierⅠ.基本参数Ⅱ.重要参数 n_estimatorsⅢ.随机森林探索wine数据集Ⅳ.交叉验证绘制学习曲线比较决策树与随机森林Ⅴ.绘制n_estimator学习曲线Ⅵ.重要参数、属性和接口参数random_state、属性estimators_参数bootstrap、参数oob_score、属性oob_score_feature_importance、重要接口随机森林分类器 RandomForestClassifierclass s..原创 2021-02-09 16:16:34 · 1722 阅读 · 0 评论 -
【skLearn分类、回归算法】随机森林介绍
文章目录随机森林介绍一、概述二、集成算法三、skLearn中的集成算法模块随机森林介绍一、概述随机森林是一种集成算法。集成学习(ensemble learning) 是时下非常流行的机器学习算法,它本身不是一个单独的机器学习算法,而是通过在数据上构建多个模型,集成所有模型的建模结果。基本上所有的机器学习领域都可以看到集成学习的身影,在现实中集成学习也有相当大的作用,它可以用来做市场营销模拟的建模,统计客户来源,保留和流失,也可用来预测疾病的风险和病患者的易感性。在现在的各种算法竞赛中,..原创 2021-02-08 22:20:12 · 646 阅读 · 0 评论 -
【skLearn 分类、回归算法】DecisionTreeRegressor 回归树
文章目录DecisionTreeRegressor 回归树DecisionTreeRegressor 回归树返回顶部原创 2021-02-02 17:27:18 · 4217 阅读 · 0 评论 -
【skLearn 分类、回归算法】DecisionTreeClassifier 分类树
文章目录返回顶部原创 2021-02-02 11:52:59 · 2598 阅读 · 0 评论 -
【skLearn 分类、回归算法】决策树介绍
文章目录一、基本介绍二、基本工作原理三、原理核心问题(了解)四、skLearn中的决策树Ⅰ. 模块sklearn.treeⅡ.sklearn的基本建模流程一、基本介绍决策树(Decision Tree)是一种非参数的有监督学习方法,它能够从一系列有特征和标签的数据中总结出决策规则,并用树状图的结构来呈现这些规则,以解决分类和回归问题。这里所说的非参数就是指对于数据集的结构和类型不做要求,可以处理任何数据。具体理解参见大佬博客:机器学习中参数模型和非参数模型理解决策树算法容易理解,适用各种..原创 2021-01-28 17:22:24 · 548 阅读 · 0 评论 -
【skLearn 分类算法】K-近邻(KNN)
文章目录一、KNN概述二、原理类比例证三、K-近邻算法实现① 构建已经分类好的数据集② 引入新数据,计算距离③ 对距离进行排序④ 判定k个点所在类别的频率一、KNN概述k近邻算法(k–Nearest Neighbour algorithm),又称为KNN算法,是数据挖掘技术中原理最简单的算法, K-近邻分类算法是一种有监督的分类算法。。KNN的工作原理:给定一个已知标签类别的训练数据集,输入没有标签的新数据后,在训练数据集中找到与新数据最邻近的k个实例,如果这k个实例的多数属于某个类别,那么新数..原创 2021-01-22 16:52:06 · 1000 阅读 · 0 评论 -
【skLearn 回归模型】多项式回归 PolynomialFeatures
文章目录一、多项式对数据的处理① 一维数据集简单案例 ---- (维度针对特征数而言)② 多维数据集案例 ---- (维度针对特征数而言)♦ 二维测试♦ 三维测试③ 多项式回归处理非线性问题④ 可视化二、多项式回归的可解释性一、多项式对数据的处理除了分箱之外,另一种更普遍的用于解决"线性回归只能处理线性数据"问题的手段,就是使用多项式回归对线性回归进行改进。这样的手法是机器学习研究者们从支持向量机中获得的:支持向量机通过升维可以将非线可分数据转化为线性可分,然后使用核函数在低维空间中进行计算,这是..原创 2021-01-20 22:00:04 · 11534 阅读 · 0 评论 -
【skLearn 回归模型】线性与非线性 ---- 分箱 (离散化处理非线性数据)
文章目录一、变量之间的线性关系二、线性数据与非线性数据三、线性模型与非线性模型四、非线性模型拟合线性数据 & 线性模型拟合非线性数据一、变量之间的线性关系“线性”这个词用于描述不同事物时有着不同的含义。我们最常使用的线性是指“变量”之间的线性关系(linear relationship),它表示两个变量之间的关系可以展示为一条直线,即可以使用方程y=ax+b来进行拟合。要探索两个变量之间的关系是否是线性的,最简单的方式就是绘制散点图,如果散点图能够相对均匀地分布在一条直线的两端,则说..原创 2021-01-17 21:00:39 · 2799 阅读 · 2 评论 -
【skLearn 回归模型】Lasso ---- 选择最佳正则化参数 <带交叉验证的Lasso LassoCV()>
文章目录一、linear_model.LassoCV()♦ 正则化路径 regularization path♦ linear_model.LassoCV类① 自定义alpha范围测试② LassoCV默认参数配置测试一、linear_model.LassoCV()使用交叉验证的 Lasso类的参数看起来与岭回归略有不同,这是由于 Lasso对于alpha的取值更加敏感的性质决定的。之前提到过,由于 Lasso对正则化系数的变动过于敏感,因此我们往往让α在很小的空间中变动。这个小空间小到超乎人们的..原创 2021-01-15 19:49:21 · 22644 阅读 · 2 评论 -
【skLearn 回归模型】Lasso <linear_model.Lasso>
文章目录Lasso概念• 定义• Lasso处理多重共线性原理二、linear_model.Lasso 类案例:Lasso特征选取① 读取数据集② 划分训练集、测试集③ 对线性回归、岭回归、Lasso进行对比④ 学习曲线Lasso概念• 定义LASSO是由1996年Robert Tibshirani首次提出,全称Least absolute shrinkage and selection operator。该方法是一种压缩估计。它通过构造一个惩罚函数得到一个较为精炼的模型,使得它压缩一些回归系数..原创 2021-01-15 16:26:08 · 4838 阅读 · 1 评论 -
【skLearn 回归模型】岭回归 ---- 选择最佳正则化参数 <带交叉验证的岭回归RidgeCV()>
文章目录[返回顶部]原创 2021-01-13 17:11:57 · 7004 阅读 · 0 评论 -
【skLearn 回归模型】岭回归 <linear_model.Ridge>
文章目录一、岭回归概念• 定义• 岭回归处理多重共线性原理一、岭回归概念• 定义岭回归,又称为吉洪诺夫正则化(Tikhonov regularization)。通常来说,大部分的机器学习教材会使用代数的形式来展现岭回归的原理。这个原理和逻辑回归及支持向量机非常相似,都是将求解w的过程转化为一个带条件的最优化问题,然后用最小二乘法求解。然而,岭回归可以做到的事其实可以用矩阵非常简单地表达出来。岭回归在多元线性回归的损失函数上加上了正则项,表达为系数w的L2范式(即系数w的平方项)乘以正则化系数α。..原创 2021-01-12 20:37:37 · 7578 阅读 · 0 评论 -
【skLearn 回归模型】多重共线性
文章目录多重共线性• 逆矩阵存在的充分必要条件• 行列式不为0的充分必要条件行列式的计算• 矩阵满秩的充分必要条件精确相关关系高度相关关系总结:多重共线性多重共线性与相关性多重共线性• 逆矩阵存在的充分必要条件分子上A*是伴随矩阵,任何矩阵都可以有伴随矩阵,因此这一部分不影响逆矩阵的存在性。而分母上的行列式A就不同了,位于分母的变量不能为0,一旦为0则无法计算出逆矩阵。因此逆矩阵存在的充分必要条件是:矩阵的行列式不能为0,对于线性回归而言,即是说X^TX不能为0。最小二乘法推导式:这..原创 2021-01-11 19:18:45 · 1599 阅读 · 0 评论 -
【skLearn 回归模型】线性回归 ---- Linear Regression
文章目录一、线性回归简介 概念 常见回归算法二、多元线性回归 Linear Regression• 线性回归基本原理• 线性回归损失函数• 最小二乘法求解多元线性回归的参数基本原理基本步骤• linear model.LinearRegression 类简单案例三、一、线性回归简介 概念回归是一种应用广泛的预测建模技术,这种技术的核心在于预测的结果是连续型变量。回归(Regression)是监督学习的另一个重要问题,用于预测输..原创 2021-01-11 16:38:58 · 31409 阅读 · 12 评论 -
【skLearn 聚类算法】KMeans
文章目录KMeans聚类算法前言※ 聚类与分类的区别※ sklearn.cluster: Clustering --- 聚类模块一、KMeans工作原理1.定义2.算法过程3.聚类结果分析4.簇内平方和5.KMeans算法的时间复杂度(了解)二、KMeans类的使用◐ 重要参数 ---- n_clusters◐ 聚类案例① 创建数据集② KMeans聚类★ 重要属性labels_,查看聚好的类别,每个样本所对应的簇数☠ 注意 predict 和 fit_ predict★ 重要属性cluster_ce..原创 2021-01-07 11:14:23 · 6705 阅读 · 2 评论 -
Python----数据分析-使用scikit-learn构建模型
Python----数据分析-使用scikit-learn构建模型scikit-learn库整合了许多机器学习算法,可以帮助使用者在数据分析过程中快速建立模型,且模型接口统一,使用起来很方便。官网入口:https://scikit-learn.org/stable/modules/classes.html#module-sklearn.datasets目录:一、使用sklearn转换器处理 1.加载datasets中的数据集&nbs原创 2020-08-13 11:35:55 · 1971 阅读 · 0 评论 -
Python----数据分析-使用scikit-learn构建模型实训(wine数据集、wine_quality数据)
Python----数据分析-使用scikit-learn构建模型实训(wine数据集、wine_quality数据)目录:实训1 使用 sklearn处理wine和wine_quality数据集实训2 构建基于wine数据集的k- Means聚类模型实训3 构建基于wine数据集的SVM分类模型实训4 构建基于wine_quality数据集的回归模型wine数据集包含来自3种不同起源的葡萄酒的共178条记录。13个属性是葡萄酒的13种化学成分。通过化学分析可以来推断葡萄酒的起源。值得一提原创 2020-08-14 18:47:29 · 24325 阅读 · 1 评论 -
Python数据分析与应用 ---- 航空公司客户价值分析
Python数据分析与应用----航空公司客户价值分析目录:一、RFM模型二、依据RFM模型预处理航空客户数据 数据清洗 特征构建 数据标准化三、使用K-Means算法进行客户分群四、聚类结果可视化某航空公司现状:以2014年3月31日为结束原创 2020-08-17 13:59:46 · 4850 阅读 · 0 评论 -
Python数据分析与应用----财政收入预测分析、实训(企业所得税预测)
Python数据分析与应用----财政收入预测分析本案例按照1994年我国财政体制改革后至2013年的数据进行分析并预测未来两年财政收入变化情况。主要按照财政收入分析预测模型流程进行~目录:一、对原始数据进行探索性分析,了解原始特征之间的相关性二、利用Lasso特征选择模型进行特征提取三、建立单个特征的灰色预测模型以及支持向量回归预测模型四、使用支持向量回归预测2014-2015的财政收入一、对原始数据进行探索性分析,了解原始特征之间的相关性特征名说明x1社会原创 2020-08-21 19:27:34 · 17234 阅读 · 19 评论 -
Python数据分析与应用----家用热水器用户分析与事件识别
Python数据分析与应用----家用热水器用户分析与事件识别目录:一、预处理热水器用户用水数据 1.删除冗余特征 2.划分用水事件 3.确定单次用水事件时长阈值二、构建用水行为特征并筛选用水事件 1.构建用水时长与原创 2020-08-25 15:30:42 · 7167 阅读 · 45 评论 -
scikit-kearn ---- 聚类(clustering)与分类(Classification)的区别
scikit-kearn ---- 聚类(clustering)与分类(Classification)的区别当把聚类(Clustering)和分类(Classification)放到一起时,很容易弄混淆两者的概念,下分别对两个概念进行解释。一、聚类(Clustering):将物理或抽象对象的集合分成由类似的对象组成的多个类的过程被称为聚类。聚类分析的一般做法是:1.先确定聚类统计量,2.然后利用统计量对样品或者变量进行聚类。对N个样品进行聚类的方法称为Q型聚类,常用的统计量称为“距离转载 2020-09-04 17:06:23 · 1696 阅读 · 0 评论