Sklearn
文章平均质量分 91
Sarah ฅʕ•̫͡•ʔฅ
勿忘初心
展开
-
***Sklearn(一): Probability calibration
今天查阅了一下sklearn的Probability calibration,终于明白了为什么在使用机器学习算法拟合模型的时候,最好进行一下“概率校验”。logistic regression,在拟合参数的时候采用的是“最大似然法”来直接优化log-loss,因此,logistic function本身返回的就是经过校验的probability。Guassian_NaiveBayes,其应用有...原创 2018-09-19 15:21:25 · 1767 阅读 · 0 评论 -
sklearn(十八):Gaussian Processes
Guassian Processes利弊:优点GP对new point的预测是通过在training data中插值而得到的。GP是概率预测,通过GP的概率预测,我们可以知道new point的“经验置信区间”,基于该置信区间大小(如果置信区间过大,则不能精确得出new point的位置,应该想办法减小置信区间),我们可以考虑是否需要对该new point进行重新拟合预测(如果GP对于ne...原创 2018-10-05 20:47:09 · 2534 阅读 · 0 评论 -
sklearn(二十三):Neural network models (supervised)
Note that:本节中所要讨论的function不适用于large scale dataset training。看了一下,基本都是最基础的知识,就提几点需要特别注意的地方。首先,看一下 Multi-layer Perceptron,他可以用于classification,也可以用于regression,用于regression时,output没有activation function,直...原创 2018-10-12 17:20:35 · 252 阅读 · 0 评论 -
sklearn(二十四):Preprocessing data
note that:preprocssing data之前,要先了解data中是否有outlier,进而在决定采用何种preprocessing data的方法。下面介绍几种preprocessing data的方法:Standardization, or mean removal and variance scalingstandardization将各个feature的数据trans...原创 2018-10-13 00:00:28 · 478 阅读 · 0 评论 -
sklearn(十九):Naive Bayes
朴素贝叶斯的实施 基于一种假设:所有特征都是相对独立的,互不相关。这种假设同时也减轻了the curse of dimentionality的影响,具体公式如下:在sklearn中,不同的朴素贝叶斯classifier的不同之处在于,他们对于P(x|y) distribution的假设不同。尽管朴素贝叶斯是一个好的分类器,但是,他是一个坏的estimator,因此sklearn中朴素贝叶斯的...原创 2018-10-06 11:30:59 · 1132 阅读 · 0 评论 -
sklearn(二十):Decision Trees
决策树可以用于classification和regression。决策树利弊:优点:model的预测结果容易理解,解释。与其他model相比,需要较少的preprocessing of data,如:normalization,dummy variable to be created,blank values to be removed。使用tree的时间复杂度为O(logN)。该...原创 2018-10-06 17:20:53 · 468 阅读 · 0 评论 -
sklearn(二十一):Ensemble methods
啊啊原创 2018-10-06 22:39:20 · 803 阅读 · 0 评论 -
sklearn(二十五):Dimensionality reduction (matrix factorization problems)
待更新原创 2018-10-13 22:49:02 · 436 阅读 · 0 评论 -
[更新ing]sklearn(二十二):Feature selection
待更新原创 2018-10-07 22:30:51 · 248 阅读 · 0 评论 -
[更新ing]sklearn(八):quantifying the quality of predictions
评估模型预测效果的方法1、利用模型自带的score method来评估拟合model的预测效果;2、利用cross validation来评估拟合model的预测效果,可以通过选用不同的scoring parameter来评估不同类型模型的预测效果;3、利用metric functions来评估不用类型model的预测效果;不同类型模型预测效果的评估方法classification me...原创 2018-09-29 17:39:59 · 154 阅读 · 0 评论 -
sklearn(九):Model persistence
#way1 利用pickle.dump()将训练好的分类器序列化(转为二进制),利用 pickle.loads()反序列化;>>> from sklearn import svm>>> from sklearn import datasets>>> clf = svm.SVC(gamma='scale')>>> ir...原创 2018-09-29 18:00:59 · 144 阅读 · 0 评论 -
sklearn(十):validation curve 和 learning curve
validation curve>>> import numpy as np>>> from sklearn.model_selection import validation_curve>>> from sklearn.datasets import load_iris&原创 2018-09-29 20:23:02 · 717 阅读 · 0 评论 -
[更新ing]sklearn(十七):Density Estimation
利用“直方图”进行密度估计利用直方图进行数据的密度估计:确定bin的大小后,计数各个bin中n_sample的个数作为数据密度。直方图密度估计有一个明显的缺陷:即bin的大小不一样,可能得到的概率密度图存在较大差异。除此以外,利用直方图得到的概率密度图不连续。而kernel density estimation可以很好的解决上述问题。下图为“直方图”密度估计,和kernel density e...原创 2018-10-04 23:08:07 · 577 阅读 · 0 评论 -
[更新ing]sklearn(五):sklearn.manifold Manifold Learning
详解多维标度法比较:sklearn.random_projection原创 2018-09-21 23:12:36 · 533 阅读 · 0 评论 -
[更新ing]sklearn(十六):Nearest Neighbors *
Finding the Nearest Neighbors1、NearestNeighbors#Unsupervised learner for implementing neighbor searches.sklearn.neighbors.NearestNeighbors(n_neighbors=5, radius=1.0, algorithm=’auto’, leaf_size=30,...原创 2018-10-04 21:36:53 · 1068 阅读 · 0 评论 -
sklearn(六):Cross-validation:evaluating estimator performance
将数据集分为训练集和测试集: train_test_split()#将数据分为train data和test data,用train data来拟合Model,用test data来评价拟合Model的优劣;X_train,X_test,Y_train,Y_test = sklearn.model_selection.train_test_split(train_x,train_y,test_...原创 2018-09-24 22:41:37 · 329 阅读 · 0 评论 -
sklearn(七):cross-validation:Tuning the hyper-parameters of an estimator
在这里主要记录一下进行hyperparameter选取的两个function,以及参数选取的一些建议:functionGridSearchCVsklearn.model_selection.GridSearchCV(estimator,param_grid,scoring=None,fit_params=None,iid=True,cv=None,verbose=0,error_scor...原创 2018-09-25 16:53:20 · 174 阅读 · 0 评论 -
sklearn中对于数据集大小的界定 *
3.sklearn库中的标准数据集及基本功能官方文档:5. Dataset loading utilities转载 2018-10-02 14:46:12 · 1138 阅读 · 0 评论 -
sklearn(十二):Linear and Quadratic Discriminant Analysis
Linear and Quadratic Discriminant Analysis是一种classifier,分别可获得linear and quadratic decision surface,他们可得到封闭式的解决方案(closed-form solution),并且很容易计算得到,这两种classifier本质上是用来解决multiclass问题的。Linear Discriminant...原创 2018-10-02 19:47:51 · 572 阅读 · 0 评论 -
Sklearn(二): sklearn.cluster 各种聚类方法解析
Classes各种聚类方法特性汇总:sklearn.cluster.KMeansfrom sklearn.cluster import KMeansKMeans(n_clusters=8,init='k-means++',n_init=10,max_iter=300,tol=0.0001,precompute_distances='auto',verbose=0,random_state...原创 2018-09-20 22:54:17 · 10725 阅读 · 0 评论 -
sklearn(十三):Kernel ridge regression(KRR)
The form of the model learned by KernelRidge is identical to support vector regression (SVR). However, different loss functions are used: KRR uses squared error loss while support vector regression us...原创 2018-10-02 20:05:25 · 1440 阅读 · 0 评论 -
[更新ing]sklearn(十四):Support Vector Machines *
SVM可以用于classification,regression,outlier detection。SVM优缺点SVM的优点:SVM在高维数据上也非常有效。当n_features > n_samples,SVM依然有效。SVM的决策函数只由支持向量机决定,因此,SVM无需存储所有的training data,从这一点来讲,SVM的空间复杂度较低。SVM能够利用kernel t...原创 2018-10-03 16:32:42 · 312 阅读 · 0 评论 -
sklearn(十五):Novelty and Outlier Detection
outlier detection和novelty detection的区别outlier detection在outlier detection中,training data包含outlier,estimator在拟合时只选training data最集中的数据区进行拟合,而忽略密度较低的数据区(outlier)。novelty detection在novelty detectio...原创 2018-10-03 23:51:36 · 879 阅读 · 0 评论 -
sklearn(三) sklearn.covariance 协方差估计 *
首先对协方差有个总体认识:协方差主要是用来估计数据中不同特征之间的相互关系的一个统计量,除协方差以外,"相关系数”也可以用来估计数据中不同特征的相互关系。“相关系数”是在协方差的基础上进一步计算而得到的。二者计算公式分别如下:由公式可以看出,协方差与相关系数的区别在于,协方差没有排除两个不同特征本身方差对于二者相互关系的影响,而“相关性”则排除两个特征本身方差的干扰,更加彻底的研究了不同特征...原创 2018-09-21 18:12:45 · 2296 阅读 · 0 评论 -
[待更新]sklearn(四) sklearn.cross_decomposition PLS和CCA *
待更新偏最小二乘回归原创 2018-09-21 20:53:56 · 2542 阅读 · 1 评论 -
sklearn一些小技巧的记录(pipeline) *
sklearn一些小技巧的记录(pipeline)转载 2018-09-21 21:37:46 · 348 阅读 · 0 评论 -
[更新ing]sklearn(十一):Generalized Linear Models
LinearRegression1、目标函数:ordianry least squares2、ordionary least squares based coefficient 估计,要求特征之间相互独立,如果特征之间存在collinear,那么X matrix将为奇异矩阵,无法用公式求得coefficient,此外,如果特征之间存在collinear,则least squares esti...原创 2018-09-30 00:08:56 · 348 阅读 · 0 评论