自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(67)
  • 问答 (3)
  • 收藏
  • 关注

翻译 sklearn Spectral Clustering

Spectral Clustering利用拉普拉斯矩阵的数值域衡量两类的区分关联度RatioCut,以关联度小为目标,转化为以特征值偏序的倒序(从小到大),使用相应特征向量作为K-means的k_features进行聚类。由于小特征向量度量的是数据扁平方向的相应特征(坐标轴),当然也严格对应于关联度小,考虑到此时,相应特征向量的元素就是样本点所属类别的表示,故利用K-mea

2016-08-15 07:04:46 2928

翻译 sklearn MeanShift

MeanShift方法基本上是通过核加权实现质心漂移的方法。sklearn.cluster.estimate_bandwith:用于估计加权核的带宽,n_samples参数指定用于估计的样本数,quantile指定至少被使用的指定数量样本数的分位数。(取值与[0, 1])sklearn.cluster.MeanShift:bin_seeding用来设定初始核的位

2016-08-15 07:01:37 6671

翻译 Affinity Propagation

Affinity propagation其中两点相似度s(i, j)的度量默认采用负欧氏距离。sklearn.cluster.AffinityPropagation 有参数preference(设定每一个点的偏好,将偏好于跟其他节点的相似性进行比较,选择高的作为exmplar,未设定则使用所有相似性的中位数)、damping (阻尼系数,利用阻尼系数与1-阻尼系数对r 及 a进

2016-08-13 21:34:20 2031

翻译 sklearn K-means MiniBatch-K-Means

K-means:K-means的注意事项,对于不同量纲(扁平数据)及(类别)非凸数据不适用,应当做PCA预处理。通过对协方差阵的估计可以看到,make_blobs是用单位协方差阵生成的。cluster_std为每个cluster的标准差。下面Anisotropicly Distributed Blobs施加的是强线性变换(无扰动)并强负相关变换后相关系数-0.950

2016-08-13 21:30:28 2348

翻译 sklearn GMM BIC 模型选择

BIC为似然函数与参数及样本量的组合,选择该值最小的模型。np.infty: inf对GMM模型直接调用bic就可以得到其值itertools.cycle: 实例化圆形迭代器,zip具有压缩取短的性质。这里还使用了凸组合:bic.min() * 0.97 + 0.03 * bic.max()下面是一个利用BIC选取GMM的例子:import itertools

2016-08-13 21:25:57 7695

翻译 sklearn GMM

sklearn.cross_validation.StratifiedKFold:分层交叉验证,使得交叉验证抽到的样本符合原始样本的比例。类GMM模型,_get_covars 应当返回每一个混合成分的协方差矩阵。np.linalg.eigh 返回特征值特征向量二元组。np.arctan2 返回的是两个序列比的弧度值,可以考虑手动转为角度值。mpl.pat

2016-08-12 07:07:08 9008 2

翻译 sklearn Gradient Tree Boosting

sklearn.metrics.mean_squared_error:标准均方误。Gradient Tree Boosting方法可以看作将AdaBoost方法的模型组合方式应用于决策树,但并不采取单点迭代惩罚加权,而是对某个模型采用对所有样本的距离模式(l2 l1 and so on)来求解。在GTB中设计后的模型中调用loss_可以返回使用的损失函数,可以用来计算单

2016-08-11 07:21:21 1212

翻译 sklearn Discrete AdaBoost vs Real AdaBoost

在组合式学习器中一般有参数learning_rate :学习速率 学习率这是一个取值在[0, 1]上的值,一些文章说其是用来在算法中用来设定迭代范围的,过大会导致过拟合,过拟合意味着拟合函数震荡不稳定,这在直观上是可以理解的。对于adaBoost组合模型调用staged_predict可以得到每个迭代阶段的预测值。sklearn.metrics.zero_one_l

2016-08-08 21:43:42 1630

翻译 sklearn PLS DecisionTree EnsembleMethods

偏最小二乘降维即利用单变量的逐次回归估出的参数向量作为成分(维数是相对应的)得到的先后成分由最小二乘回归的性质知是正交的。plt subplot方法指定numrows numcolumns numpage从而定位子图像。pls transform方法返回的是得分。PLS降维与CCA降维考虑区别应当是前者进行了归一化处理,而后者不是。import nump

2016-08-07 15:54:39 1578

翻译 Gaussian Process Regression

高斯过程的基本意义在于变量间的相关性仅与间隔有关。(相对距离)实质上高斯回归就是利用了高斯条件分布导出了分布而已,至于其均值表达形式(有噪声)与最小二乘回归(岭回归)类似是利用了条件分布是投影的意义,是直觉的。(不难看到套上分布假设的核岭回归就是所谓有噪声的高斯回归)非噪声的高斯回归可以看作对一个曲线拟合的概率显示。(拟合曲线有概率区间)参数corr可以选择回归所用的核

2016-07-31 18:00:28 4877

原创 LDA and QDA

简单的R实现:library(MASS)Iris y_hat sum(y_hat == Iris$Sp)/150一般numpy中对于ndarray的处理对python内置list也是可以作用的。(构造函数实现了转型)下面对sklearn中线性判别及二次判别进行了调用,并与DIY二次判别进行比较,这里使用了python字符串执行及实例化函数exec及eva

2016-07-31 17:58:07 1535

原创 logistic regression

logistic regression:numpy 向量化运算可以很快地完成切片任务。如根据条件构造数据集时 取条件union可以通过bool矩阵的加法完成,对偶地intersection可通过bool矩阵乘法完成。(补可以考虑-)我们在下面的例子中有用到。(以替换之前的代码)先调用sklearn 后自己用优化法解 得到相同结果:from __futur

2016-07-31 17:53:22 368

翻译 sklearn SVR与KRR对比

ravel方法为矩阵按行拉直。::这种切片运算可以通过设置步长来进行切片,由于切片属于view, 即对切片的修改会改变原数组。对数组进行升高维度的工作可以通过切片运算后加一个None(在新维度上取None完成) Ex: np.array([[1, 2], [3, 4]])[:,:,None]SVR由于没有显式解拟合较慢,但在预测上由于仅用到支持向量故比KRR快:简单代码

2016-07-28 20:50:59 4379

原创 numpy KNN简单实现

numpy支持矩阵减向量(每行减去某个向量) 列的情况可以考虑转置。R实现:library(class)attach(iris)train y x fit print(1 - sum(fit==y)/length(y)) 利用ndarray的诸多特性,可以实现非常简短的(DIY)KNN:import numpy as np from sk

2016-07-27 21:45:50 1195

翻译 机器学习基础 维基翻译 Johnson-Lindenstrauss降维 应用于广义因子模型 及简单的sklearn例子

The Johnson-Lindenstrauss lemma states that any high dimensional dataset can be random projected into a lower dimensional Euclidean space while controlling the distortion in the pairwise distances

2016-07-17 21:13:58 2389

翻译 机器学习基础 维基翻译 典则相关分析 多标签分类 及简单的sklearn例子

The sklearn.muticlass module implements meta-estimators to solve muticlass and mutilabel classification problem bydecomposing such problem into binary classification problems.Multiclass clas

2016-07-17 21:10:42 2674

翻译 机器学习基础 维基翻译 保序回归 随机森林 Pipeline处理 及简单的sklearn例子

Isotonic regression(保序回归)In numerical analysis, isotonic regression (IR) involves finding a weighted least-squares fit x to Rn with weights vector w to Rn subject to a set of non-contradictory c

2016-07-16 22:09:52 2292

翻译 机器学习基础 维基翻译 超参数选择 K近邻法 及简单的sklearn例子

In the context of mechine learning, hyperparameter optimization or model selection is the problem of choosing a set of hyperparameters for a learning algorithm, usually with the goal of optimizing

2016-07-16 22:06:07 1291

原创 scikit-learn svm初探

下面的代码仅仅作为伪代码来看,因为拟合效果不好,思考是优化求解的问题,仅有w_bar_2_1的解是收敛的,但是拟合效果很差。svm实现要进一步思考。import numpy as npfrom sklearn import svmfrom scipy.optimize import minimizefrom numpy.linalg import norm

2016-07-16 21:59:49 774

原创 scikit-learn 交叉验证绘图及原理实践

交叉验证返回的是平均均方误或平均判定正确率。from sklearn import datasetsfrom sklearn.cross_validation import cross_val_predictfrom sklearn import linear_modelimport matplotlib.pyplot as pltlr = linear_mod

2016-07-16 21:58:46 2939

原创 近似因子模型

import numpy as npfrom numpy.random import multivariate_normal, random, poissonfrom numpy.linalg import eigh, norm, svdfrom scipy.stats import exponimport matplotlib.pyplot as pltfrom sklear

2016-07-16 21:57:21 1224

原创 scikit-learn 回归基础

numpy ndarray属性:shape dtype有切片运算当对赋值后的容器部分元素进行修改,影响原ndarray。ndarray Array creation routines: 可以用来构造ndarray的一些常用接口(Ones and zeros and so on)一些ndarray的接口: ndarray.T(转置) ndarray.flat: 类

2016-07-16 21:54:45 943

原创 python 奇异值分解小程序

import numpy as npimport randomdef gen_inv(a):        a_sq = np.dot(a.T, a)        eigen = np.linalg.eig(a_sq)        eigen_vals = eigen[0]        eigen_vectors = eigen[1]

2016-07-16 21:53:42 1510

翻译 Django初探(二)

在创建admin账号及密码后只有通过登录才能访问子页面。 使admin具有polls的接口,在polls中admin文件中添加如下代码:     admin.site.register(Question)(need .models.Question django.contrib.admin)     之后在admin页面中就可以对polls接口进行访问。 下面对vi

2016-07-16 21:52:42 435

翻译 Django初探(一)

python -c ""运用命令行运行比较简短的python 指令。添加文件需要重启server对一个app进行url mapurl映射的方法,仅仅是对于一个urls.py文件,在其根目录路径对urlpattern元素第一个参数(作为文件或url路径)匹配到第二个参数的模块中。这里有一个注意点,当将一个目录的模块包含进INSTALLED_APP中时,相应的上层目录也

2016-07-16 21:51:24 355

原创 C++实现R语言向量化运算(向量类:c 矩阵类:matrix)2015.9.11

类源代码:#includeusing std::cout;using std::endl;using std::cin;using std::istream;using std::ios_base;#includeusing std::vector;#includeusing std::initializer_list;#includeusing s

2016-07-16 21:49:08 2176

原创 模仿R语言c++ 向量类c 矩阵类matrix等(持续更新 欢迎指点)

这部分利用C++模仿定义了R的向量、矩阵运算,不断更新,在效率上部分编码有欠缺,欢迎指点。本人统计狗出身,勿喷。

2015-09-22 22:52:34 1556

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除