![](https://img-blog.csdnimg.cn/20201014180756916.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
scikit-learn
梦寐_
这个作者很懒,什么都没留下…
展开
-
最小二乘法求回归直线方程的推导过程
在数据的统计分析中,数据之间即变量x与Y之间的相关性研究非常重要,通过在直角坐标系中做散点图的方式我们会发现很多统计数据近似一条直线,它们之间或者正相关或者负相关。虽然这些数据是离散的,不是连续的,我们无法得到一个确定的描述这种相关性的函数方程,但既然在直角坐标系中数据分布接近一条直线,那么我们就可以通过画直线的方式得到一个近似的描述这种关系的直线方程。当然,从前面的描述中不难看出,所有数据都分布...转载 2019-10-22 19:59:34 · 1710 阅读 · 0 评论 -
scikit-learn:聚类算法K-Means
class sklearn.cluster.KMeans (n_clusters=8, init=’k-means++’, n_init=10, max_iter=300, tol=0.0001, precompute_distances=’auto’, verbose...原创 2019-11-29 17:08:28 · 627 阅读 · 0 评论 -
scikit-learn:逻辑回归
2class sklearn.linear_model.LogisticRegression (penalty=’l2’, dual=False, tol=0.0001, C=1.0, fit_intercept=True, intercept_scal...原创 2019-11-15 23:20:33 · 339 阅读 · 0 评论 -
scikit-learn:降维算法PCA和SVD
class sklearn.decomposition.PCA ( n_components=None, copy=True, whiten=False, svd_solver=’auto’, tol=0.0, iterated_power=’auto’, random_state=None )...原创 2019-11-10 21:45:22 · 1245 阅读 · 0 评论 -
scikit-learn:调参的基本思想——泛化误差、偏差、方差
原创 2019-11-08 22:17:07 · 486 阅读 · 0 评论 -
scikit-learn:随机森林
class sklearn.ensemble.RandomForestClassifier (n_estimators=’10’, criterion=’gini’, max_depth=None, min_samples_split=2, min_samples_leaf=1, ...原创 2019-11-08 22:02:10 · 549 阅读 · 0 评论 -
交叉验证(Cross Validation)
一、训练集 vs. 测试集在模式识别(pattern recognition)与机器学习(machine learning)的相关研究中,经常会将数据集(dataset)分为训练集(training set)跟测试集(testing set)这两个子集,前者用以建立模型(model),后者则用来评估该模型对未知样本进行预测时的精确度,正规的说法是泛化能力(generalization abili...转载 2019-10-25 13:31:44 · 2352 阅读 · 0 评论 -
scikit-learn:GridSearchCV,CV调节超参使用方法
GridSearchCV 简介:GridSearchCV,它存在的意义就是自动调参,只要把参数输进去,就能给出最优化的结果和参数。但是这个方法适合于小数据集,一旦数据的量级上去了,很难得出结果。这个时候就是需要动脑筋了。数据量比较大的时候可以使用一个快速调优的方法——坐标下降。它其实是一种贪心算法:拿当前对模型影响最大的参数调优,直到最优化;再拿下一个影响最大的参数调优,如此下去,直到所有的参数...原创 2019-10-25 15:00:08 · 940 阅读 · 1 评论 -
scikit-learn:决策树-----分类树、回归树、交叉验证、决策树可视化
1 概述1.1 决策树是如何工作的决策树(Decision Tree)是一种非参数的有监督学习方法,它能够从一系列有特征和标签的数据中总结出决策规则,并用树状图的结构来呈现这些规则,以解决分类和回归问题。决策树算法容易理解,适用各种数据,在解决各种问题时都有良好表现,尤其是以树模型为核心的各种集成算法,在各个行业和领域都有广泛的应用决策树算法的核心是要解决两个问题:1)如何从数据表中找出最...原创 2019-10-25 12:45:53 · 9304 阅读 · 0 评论 -
scikit-learn: 回归类的模型评估指标
''' 模型效果指标评估 y_true:真实的数据值 y_pred:回归模型预测的数据值 explained_variance_score:解释回归模型的方差得分,其值取值范围是[0,1],越接近于1说明自变量越能解释因变量 的方差变化,值越小则说明效果越差。 mean_absolute_error:平均绝对误差(Mean Absolute...原创 2019-10-24 18:21:22 · 5710 阅读 · 1 评论 -
KNN 算法
文章目录01 场景代入02 kNN 算法介绍03 Python 代码实现04 sklearn 调包用 Python 一步步写出 Sklearn 中的 kNN 封装算法。Sklearn 划分训练集和测试集加载数据集Sklearn 调包划分数据集手写 train_test_split 函数封装 train_test_split 函数01 场景代入在一个酒吧里,吧台上摆着十杯几乎一样的红酒,老板跟你...转载 2019-10-09 15:48:36 · 1658 阅读 · 0 评论 -
sklearn中的数据预处理和特征工程
数据预处理需要根据数据本身的特性进行,有不同的格式和不同的要求,有缺失值要填,有无效数据的要剔除,有冗余维的要选,这些步骤都和数据本身的特性紧密相关。数据预处理大致分为三个步骤:数据的准备,数据的转换,数据的输出。数据处理是系统工程的基本环节,也是提高算法准确度的有效手段。因此,为了提高算法模型的准确度,在机器学习中也要根据算法的特征和数据的特征对数据进行转换。数据转换方法: 1. 调整数据...原创 2019-10-21 14:38:24 · 733 阅读 · 0 评论 -
Scipy、Numpy实现曲线拟合
曲线拟合1. 多项式拟合首先通过numpy.arange定义x、y坐标,然后调用polyfit()函数进行3次多项式拟合,最后调用Matplotlib函数进行散点图绘制(x,y)坐标,并绘制预测的曲线。#encoding=utf-8 import numpy as npimport matplotlib.pyplot as plt #定义x、y散点坐标x = np.arange(...原创 2019-10-22 11:55:22 · 4054 阅读 · 0 评论 -
scikit-learn:Logistic Regression(逻辑回归)
https://zhuanlan.zhihu.com/p/28408516https://blog.csdn.net/programmer_wei/article/details/52072939原创 2019-10-22 09:54:04 · 290 阅读 · 0 评论 -
scikit-learn:回归分析——非线性问题:多项式回归
在一元回归分析中,如果自变量x和因变量y之间的关系是非线性的,在找不到合适的函数曲线来拟合的情况下,可以采用一元多项式回归。如果自变量不止一个,则采用多元多项式回归。多项式回归可以处理相当一类非线性问题,因为任意函数都可以分段,用多项式来逼近。使用的假设函数是一元一次方程,也就是二维平面上的一条直线。但是很多时候可能会遇到直线方程无法很好的拟合数据的情况,这个时候可以尝试使用多项式回归。多项式...原创 2019-10-25 21:25:00 · 3163 阅读 · 3 评论 -
scikit-learn:回归分析——多重共线性:岭回归与Lasso
1.过拟合当样本特征很多,样本数相对较少时,模型容易陷入过拟合。为了缓解过拟合问题,有两种方法:方法一:减少特征数量(人工选择重要特征来保留,会丢弃部分信息)。方法二:正则化(减少特征参数w ^的数量级)。2.正则化(Regularization)正则化是结构风险(损失函数+正则化项)最小化策略的体现,是在经验风险(平均损失函数)上加一个正则化项。正则化的作用就是选择经验风险和模型复杂度...原创 2019-10-22 22:40:50 · 3009 阅读 · 0 评论 -
scikit-learn:回归分析——多元线性回归LinearRegression
回归分析整体逻辑回归分析(Regression Analysis)研究自变量与因变量之间关系形式的分析方法,它主要是通过建立因变量y与影响它的自变量 x_i(i=1,2,3… …)之间的回归模型,来预测因变量y的发展趋向。回归分析的分类线性回归分析- 简单线性回归- 多重线性回归非线性回归分析- 逻辑回归- 神经网络回归分析的步骤根据预测目标,确定自变量和因变量绘制散...原创 2019-09-30 14:03:43 · 7498 阅读 · 0 评论 -
scikit-learn:使用scatter_matrix判断个特征的数据分布及其关系
1、使用scatter_matrix判断个特征的数据分布及其关系原创 2019-10-01 18:52:27 · 330 阅读 · 0 评论