- 博客(67)
- 问答 (3)
- 收藏
- 关注
翻译 sklearn Spectral Clustering
Spectral Clustering利用拉普拉斯矩阵的数值域衡量两类的区分关联度RatioCut,以关联度小为目标,转化为以特征值偏序的倒序(从小到大),使用相应特征向量作为K-means的k_features进行聚类。由于小特征向量度量的是数据扁平方向的相应特征(坐标轴),当然也严格对应于关联度小,考虑到此时,相应特征向量的元素就是样本点所属类别的表示,故利用K-mea
2016-08-15 07:04:46 2928
翻译 sklearn MeanShift
MeanShift方法基本上是通过核加权实现质心漂移的方法。sklearn.cluster.estimate_bandwith:用于估计加权核的带宽,n_samples参数指定用于估计的样本数,quantile指定至少被使用的指定数量样本数的分位数。(取值与[0, 1])sklearn.cluster.MeanShift:bin_seeding用来设定初始核的位
2016-08-15 07:01:37 6671
翻译 Affinity Propagation
Affinity propagation其中两点相似度s(i, j)的度量默认采用负欧氏距离。sklearn.cluster.AffinityPropagation 有参数preference(设定每一个点的偏好,将偏好于跟其他节点的相似性进行比较,选择高的作为exmplar,未设定则使用所有相似性的中位数)、damping (阻尼系数,利用阻尼系数与1-阻尼系数对r 及 a进
2016-08-13 21:34:20 2031
翻译 sklearn K-means MiniBatch-K-Means
K-means:K-means的注意事项,对于不同量纲(扁平数据)及(类别)非凸数据不适用,应当做PCA预处理。通过对协方差阵的估计可以看到,make_blobs是用单位协方差阵生成的。cluster_std为每个cluster的标准差。下面Anisotropicly Distributed Blobs施加的是强线性变换(无扰动)并强负相关变换后相关系数-0.950
2016-08-13 21:30:28 2348
翻译 sklearn GMM BIC 模型选择
BIC为似然函数与参数及样本量的组合,选择该值最小的模型。np.infty: inf对GMM模型直接调用bic就可以得到其值itertools.cycle: 实例化圆形迭代器,zip具有压缩取短的性质。这里还使用了凸组合:bic.min() * 0.97 + 0.03 * bic.max()下面是一个利用BIC选取GMM的例子:import itertools
2016-08-13 21:25:57 7695
翻译 sklearn GMM
sklearn.cross_validation.StratifiedKFold:分层交叉验证,使得交叉验证抽到的样本符合原始样本的比例。类GMM模型,_get_covars 应当返回每一个混合成分的协方差矩阵。np.linalg.eigh 返回特征值特征向量二元组。np.arctan2 返回的是两个序列比的弧度值,可以考虑手动转为角度值。mpl.pat
2016-08-12 07:07:08 9008 2
翻译 sklearn Gradient Tree Boosting
sklearn.metrics.mean_squared_error:标准均方误。Gradient Tree Boosting方法可以看作将AdaBoost方法的模型组合方式应用于决策树,但并不采取单点迭代惩罚加权,而是对某个模型采用对所有样本的距离模式(l2 l1 and so on)来求解。在GTB中设计后的模型中调用loss_可以返回使用的损失函数,可以用来计算单
2016-08-11 07:21:21 1212
翻译 sklearn Discrete AdaBoost vs Real AdaBoost
在组合式学习器中一般有参数learning_rate :学习速率 学习率这是一个取值在[0, 1]上的值,一些文章说其是用来在算法中用来设定迭代范围的,过大会导致过拟合,过拟合意味着拟合函数震荡不稳定,这在直观上是可以理解的。对于adaBoost组合模型调用staged_predict可以得到每个迭代阶段的预测值。sklearn.metrics.zero_one_l
2016-08-08 21:43:42 1630
翻译 sklearn PLS DecisionTree EnsembleMethods
偏最小二乘降维即利用单变量的逐次回归估出的参数向量作为成分(维数是相对应的)得到的先后成分由最小二乘回归的性质知是正交的。plt subplot方法指定numrows numcolumns numpage从而定位子图像。pls transform方法返回的是得分。PLS降维与CCA降维考虑区别应当是前者进行了归一化处理,而后者不是。import nump
2016-08-07 15:54:39 1578
翻译 Gaussian Process Regression
高斯过程的基本意义在于变量间的相关性仅与间隔有关。(相对距离)实质上高斯回归就是利用了高斯条件分布导出了分布而已,至于其均值表达形式(有噪声)与最小二乘回归(岭回归)类似是利用了条件分布是投影的意义,是直觉的。(不难看到套上分布假设的核岭回归就是所谓有噪声的高斯回归)非噪声的高斯回归可以看作对一个曲线拟合的概率显示。(拟合曲线有概率区间)参数corr可以选择回归所用的核
2016-07-31 18:00:28 4877
原创 LDA and QDA
简单的R实现:library(MASS)Iris y_hat sum(y_hat == Iris$Sp)/150一般numpy中对于ndarray的处理对python内置list也是可以作用的。(构造函数实现了转型)下面对sklearn中线性判别及二次判别进行了调用,并与DIY二次判别进行比较,这里使用了python字符串执行及实例化函数exec及eva
2016-07-31 17:58:07 1535
原创 logistic regression
logistic regression:numpy 向量化运算可以很快地完成切片任务。如根据条件构造数据集时 取条件union可以通过bool矩阵的加法完成,对偶地intersection可通过bool矩阵乘法完成。(补可以考虑-)我们在下面的例子中有用到。(以替换之前的代码)先调用sklearn 后自己用优化法解 得到相同结果:from __futur
2016-07-31 17:53:22 368
翻译 sklearn SVR与KRR对比
ravel方法为矩阵按行拉直。::这种切片运算可以通过设置步长来进行切片,由于切片属于view, 即对切片的修改会改变原数组。对数组进行升高维度的工作可以通过切片运算后加一个None(在新维度上取None完成) Ex: np.array([[1, 2], [3, 4]])[:,:,None]SVR由于没有显式解拟合较慢,但在预测上由于仅用到支持向量故比KRR快:简单代码
2016-07-28 20:50:59 4379
原创 numpy KNN简单实现
numpy支持矩阵减向量(每行减去某个向量) 列的情况可以考虑转置。R实现:library(class)attach(iris)train y x fit print(1 - sum(fit==y)/length(y)) 利用ndarray的诸多特性,可以实现非常简短的(DIY)KNN:import numpy as np from sk
2016-07-27 21:45:50 1195
翻译 机器学习基础 维基翻译 Johnson-Lindenstrauss降维 应用于广义因子模型 及简单的sklearn例子
The Johnson-Lindenstrauss lemma states that any high dimensional dataset can be random projected into a lower dimensional Euclidean space while controlling the distortion in the pairwise distances
2016-07-17 21:13:58 2389
翻译 机器学习基础 维基翻译 典则相关分析 多标签分类 及简单的sklearn例子
The sklearn.muticlass module implements meta-estimators to solve muticlass and mutilabel classification problem bydecomposing such problem into binary classification problems.Multiclass clas
2016-07-17 21:10:42 2674
翻译 机器学习基础 维基翻译 保序回归 随机森林 Pipeline处理 及简单的sklearn例子
Isotonic regression(保序回归)In numerical analysis, isotonic regression (IR) involves finding a weighted least-squares fit x to Rn with weights vector w to Rn subject to a set of non-contradictory c
2016-07-16 22:09:52 2292
翻译 机器学习基础 维基翻译 超参数选择 K近邻法 及简单的sklearn例子
In the context of mechine learning, hyperparameter optimization or model selection is the problem of choosing a set of hyperparameters for a learning algorithm, usually with the goal of optimizing
2016-07-16 22:06:07 1291
原创 scikit-learn svm初探
下面的代码仅仅作为伪代码来看,因为拟合效果不好,思考是优化求解的问题,仅有w_bar_2_1的解是收敛的,但是拟合效果很差。svm实现要进一步思考。import numpy as npfrom sklearn import svmfrom scipy.optimize import minimizefrom numpy.linalg import norm
2016-07-16 21:59:49 774
原创 scikit-learn 交叉验证绘图及原理实践
交叉验证返回的是平均均方误或平均判定正确率。from sklearn import datasetsfrom sklearn.cross_validation import cross_val_predictfrom sklearn import linear_modelimport matplotlib.pyplot as pltlr = linear_mod
2016-07-16 21:58:46 2939
原创 近似因子模型
import numpy as npfrom numpy.random import multivariate_normal, random, poissonfrom numpy.linalg import eigh, norm, svdfrom scipy.stats import exponimport matplotlib.pyplot as pltfrom sklear
2016-07-16 21:57:21 1224
原创 scikit-learn 回归基础
numpy ndarray属性:shape dtype有切片运算当对赋值后的容器部分元素进行修改,影响原ndarray。ndarray Array creation routines: 可以用来构造ndarray的一些常用接口(Ones and zeros and so on)一些ndarray的接口: ndarray.T(转置) ndarray.flat: 类
2016-07-16 21:54:45 943
原创 python 奇异值分解小程序
import numpy as npimport randomdef gen_inv(a): a_sq = np.dot(a.T, a) eigen = np.linalg.eig(a_sq) eigen_vals = eigen[0] eigen_vectors = eigen[1]
2016-07-16 21:53:42 1510
翻译 Django初探(二)
在创建admin账号及密码后只有通过登录才能访问子页面。 使admin具有polls的接口,在polls中admin文件中添加如下代码: admin.site.register(Question)(need .models.Question django.contrib.admin) 之后在admin页面中就可以对polls接口进行访问。 下面对vi
2016-07-16 21:52:42 435
翻译 Django初探(一)
python -c ""运用命令行运行比较简短的python 指令。添加文件需要重启server对一个app进行url mapurl映射的方法,仅仅是对于一个urls.py文件,在其根目录路径对urlpattern元素第一个参数(作为文件或url路径)匹配到第二个参数的模块中。这里有一个注意点,当将一个目录的模块包含进INSTALLED_APP中时,相应的上层目录也
2016-07-16 21:51:24 355
原创 C++实现R语言向量化运算(向量类:c 矩阵类:matrix)2015.9.11
类源代码:#includeusing std::cout;using std::endl;using std::cin;using std::istream;using std::ios_base;#includeusing std::vector;#includeusing std::initializer_list;#includeusing s
2016-07-16 21:49:08 2176
原创 模仿R语言c++ 向量类c 矩阵类matrix等(持续更新 欢迎指点)
这部分利用C++模仿定义了R的向量、矩阵运算,不断更新,在效率上部分编码有欠缺,欢迎指点。本人统计狗出身,勿喷。
2015-09-22 22:52:34 1556
空空如也
求教一个基本运算行吗
2018-06-04
使用Theano卷积神经网络的疑问
2016-11-11
下面两个代码为什么第一个可以起到改变文本的作用第二个却不能(第一个是被注释掉的部分)
2015-11-06
TA创建的收藏夹 TA关注的收藏夹
TA关注的人