斯温jack-CSDN博客

翻译 sklearn Spectral Clustering

Spectral Clustering利用拉普拉斯矩阵的数值域衡量两类的区分关联度RatioCut,以关联度小为目标，转化为以特征值偏序的倒序（从小到大），使用相应特征向量作为K-means的k_features进行聚类。由于小特征向量度量的是数据扁平方向的相应特征（坐标轴），当然也严格对应于关联度小，考虑到此时，相应特征向量的元素就是样本点所属类别的表示，故利用K-mea

2016-08-15 07:04:46 2928

翻译 sklearn MeanShift

MeanShift方法基本上是通过核加权实现质心漂移的方法。sklearn.cluster.estimate_bandwith:用于估计加权核的带宽，n_samples参数指定用于估计的样本数，quantile指定至少被使用的指定数量样本数的分位数。（取值与[0, 1]）sklearn.cluster.MeanShift:bin_seeding用来设定初始核的位

2016-08-15 07:01:37 6671

翻译 Affinity Propagation

Affinity propagation其中两点相似度s(i, j)的度量默认采用负欧氏距离。sklearn.cluster.AffinityPropagation 有参数preference（设定每一个点的偏好，将偏好于跟其他节点的相似性进行比较，选择高的作为exmplar,未设定则使用所有相似性的中位数）、damping （阻尼系数，利用阻尼系数与1-阻尼系数对r 及 a进

2016-08-13 21:34:20 2031

翻译 sklearn K-means MiniBatch-K-Means

K-means:K-means的注意事项，对于不同量纲（扁平数据）及（类别）非凸数据不适用，应当做PCA预处理。通过对协方差阵的估计可以看到，make_blobs是用单位协方差阵生成的。cluster_std为每个cluster的标准差。下面Anisotropicly Distributed Blobs施加的是强线性变换（无扰动）并强负相关变换后相关系数-0.950

2016-08-13 21:30:28 2348

翻译 sklearn GMM BIC 模型选择

BIC为似然函数与参数及样本量的组合，选择该值最小的模型。np.infty: inf对GMM模型直接调用bic就可以得到其值itertools.cycle: 实例化圆形迭代器，zip具有压缩取短的性质。这里还使用了凸组合：bic.min() * 0.97 + 0.03 * bic.max()下面是一个利用BIC选取GMM的例子：import itertools

2016-08-13 21:25:57 7695

翻译 sklearn GMM

sklearn.cross_validation.StratifiedKFold:分层交叉验证，使得交叉验证抽到的样本符合原始样本的比例。类GMM模型，_get_covars 应当返回每一个混合成分的协方差矩阵。np.linalg.eigh 返回特征值特征向量二元组。np.arctan2 返回的是两个序列比的弧度值，可以考虑手动转为角度值。mpl.pat

2016-08-12 07:07:08 9008 2

翻译 sklearn Gradient Tree Boosting

sklearn.metrics.mean_squared_error:标准均方误。Gradient Tree Boosting方法可以看作将AdaBoost方法的模型组合方式应用于决策树，但并不采取单点迭代惩罚加权，而是对某个模型采用对所有样本的距离模式（l2 l1 and so on）来求解。在GTB中设计后的模型中调用loss_可以返回使用的损失函数，可以用来计算单

2016-08-11 07:21:21 1212

翻译 sklearn Discrete AdaBoost vs Real AdaBoost

在组合式学习器中一般有参数learning_rate :学习速率学习率这是一个取值在[0, 1]上的值，一些文章说其是用来在算法中用来设定迭代范围的，过大会导致过拟合，过拟合意味着拟合函数震荡不稳定，这在直观上是可以理解的。对于adaBoost组合模型调用staged_predict可以得到每个迭代阶段的预测值。sklearn.metrics.zero_one_l

2016-08-08 21:43:42 1630

翻译 sklearn PLS DecisionTree EnsembleMethods

偏最小二乘降维即利用单变量的逐次回归估出的参数向量作为成分（维数是相对应的）得到的先后成分由最小二乘回归的性质知是正交的。plt subplot方法指定numrows numcolumns numpage从而定位子图像。pls transform方法返回的是得分。PLS降维与CCA降维考虑区别应当是前者进行了归一化处理，而后者不是。import nump

2016-08-07 15:54:39 1578

翻译 Gaussian Process Regression

高斯过程的基本意义在于变量间的相关性仅与间隔有关。（相对距离）实质上高斯回归就是利用了高斯条件分布导出了分布而已，至于其均值表达形式（有噪声）与最小二乘回归（岭回归）类似是利用了条件分布是投影的意义，是直觉的。（不难看到套上分布假设的核岭回归就是所谓有噪声的高斯回归）非噪声的高斯回归可以看作对一个曲线拟合的概率显示。（拟合曲线有概率区间）参数corr可以选择回归所用的核

2016-07-31 18:00:28 4877

原创 LDA and QDA

简单的R实现：library(MASS)Iris y_hat sum(y_hat == Iris$Sp)/150一般numpy中对于ndarray的处理对python内置list也是可以作用的。（构造函数实现了转型）下面对sklearn中线性判别及二次判别进行了调用，并与DIY二次判别进行比较，这里使用了python字符串执行及实例化函数exec及eva

2016-07-31 17:58:07 1535

原创 logistic regression

logistic regression:numpy 向量化运算可以很快地完成切片任务。如根据条件构造数据集时取条件union可以通过bool矩阵的加法完成，对偶地intersection可通过bool矩阵乘法完成。（补可以考虑-）我们在下面的例子中有用到。（以替换之前的代码）先调用sklearn 后自己用优化法解得到相同结果：from __futur

2016-07-31 17:53:22 368

翻译 sklearn SVR与KRR对比

ravel方法为矩阵按行拉直。::这种切片运算可以通过设置步长来进行切片，由于切片属于view, 即对切片的修改会改变原数组。对数组进行升高维度的工作可以通过切片运算后加一个None(在新维度上取None完成) Ex: np.array([[1, 2], [3, 4]])[:,:,None]SVR由于没有显式解拟合较慢，但在预测上由于仅用到支持向量故比KRR快：简单代码

2016-07-28 20:50:59 4379

原创 numpy KNN简单实现

numpy支持矩阵减向量（每行减去某个向量）列的情况可以考虑转置。R实现：library(class)attach(iris)train y x fit print(1 - sum(fit==y)/length(y)) 利用ndarray的诸多特性，可以实现非常简短的（DIY）KNN：import numpy as np from sk

2016-07-27 21:45:50 1195

翻译机器学习基础维基翻译 Johnson-Lindenstrauss降维应用于广义因子模型及简单的sklearn例子

The Johnson-Lindenstrauss lemma states that any high dimensional dataset can be random projected into a lower dimensional Euclidean space while controlling the distortion in the pairwise distances

2016-07-17 21:13:58 2389

翻译机器学习基础维基翻译典则相关分析多标签分类及简单的sklearn例子

The sklearn.muticlass module implements meta-estimators to solve muticlass and mutilabel classification problem bydecomposing such problem into binary classification problems.Multiclass clas

2016-07-17 21:10:42 2674

翻译机器学习基础维基翻译保序回归随机森林 Pipeline处理及简单的sklearn例子

Isotonic regression(保序回归)In numerical analysis, isotonic regression (IR) involves finding a weighted least-squares fit x to Rn with weights vector w to Rn subject to a set of non-contradictory c

2016-07-16 22:09:52 2292

翻译机器学习基础维基翻译超参数选择 K近邻法及简单的sklearn例子

In the context of mechine learning, hyperparameter optimization or model selection is the problem of choosing a set of hyperparameters for a learning algorithm, usually with the goal of optimizing

2016-07-16 22:06:07 1291

原创 scikit-learn svm初探

下面的代码仅仅作为伪代码来看，因为拟合效果不好，思考是优化求解的问题，仅有w_bar_2_1的解是收敛的，但是拟合效果很差。svm实现要进一步思考。import numpy as npfrom sklearn import svmfrom scipy.optimize import minimizefrom numpy.linalg import norm

2016-07-16 21:59:49 774

原创 scikit-learn 交叉验证绘图及原理实践

交叉验证返回的是平均均方误或平均判定正确率。from sklearn import datasetsfrom sklearn.cross_validation import cross_val_predictfrom sklearn import linear_modelimport matplotlib.pyplot as pltlr = linear_mod

2016-07-16 21:58:46 2939

原创近似因子模型

import numpy as npfrom numpy.random import multivariate_normal, random, poissonfrom numpy.linalg import eigh, norm, svdfrom scipy.stats import exponimport matplotlib.pyplot as pltfrom sklear

2016-07-16 21:57:21 1224

原创 scikit-learn 回归基础

numpy ndarray属性：shape dtype有切片运算当对赋值后的容器部分元素进行修改，影响原ndarray。ndarray Array creation routines: 可以用来构造ndarray的一些常用接口（Ones and zeros and so on）一些ndarray的接口： ndarray.T(转置) ndarray.flat: 类

2016-07-16 21:54:45 943

原创 python 奇异值分解小程序

import numpy as npimport randomdef gen_inv(a): a_sq = np.dot(a.T, a) eigen = np.linalg.eig(a_sq) eigen_vals = eigen[0] eigen_vectors = eigen[1]

2016-07-16 21:53:42 1510

翻译 Django初探（二）

在创建admin账号及密码后只有通过登录才能访问子页面。使admin具有polls的接口，在polls中admin文件中添加如下代码： admin.site.register(Question)(need .models.Question django.contrib.admin) 之后在admin页面中就可以对polls接口进行访问。下面对vi

2016-07-16 21:52:42 435

翻译 Django初探（一）

python -c ""运用命令行运行比较简短的python 指令。添加文件需要重启server对一个app进行url mapurl映射的方法，仅仅是对于一个urls.py文件，在其根目录路径对urlpattern元素第一个参数（作为文件或url路径）匹配到第二个参数的模块中。这里有一个注意点，当将一个目录的模块包含进INSTALLED_APP中时，相应的上层目录也

2016-07-16 21:51:24 355

原创 C++实现R语言向量化运算（向量类：c 矩阵类：matrix）2015.9.11

类源代码：#includeusing std::cout;using std::endl;using std::cin;using std::istream;using std::ios_base;#includeusing std::vector;#includeusing std::initializer_list;#includeusing s

2016-07-16 21:49:08 2176

原创模仿R语言c++ 向量类c 矩阵类matrix等（持续更新欢迎指点）

这部分利用C++模仿定义了R的向量、矩阵运算，不断更新，在效率上部分编码有欠缺，欢迎指点。本人统计狗出身，勿喷。

2015-09-22 22:52:34 1556

斯温的博客