Sklearn
文章平均质量分 76
斯温jack
这个作者很懒,什么都没留下…
展开
-
scikit-learn 回归基础
numpy ndarray属性:shape dtype有切片运算当对赋值后的容器部分元素进行修改,影响原ndarray。ndarray Array creation routines: 可以用来构造ndarray的一些常用接口(Ones and zeros and so on)一些ndarray的接口: ndarray.T(转置) ndarray.flat: 类原创 2016-07-16 21:54:45 · 943 阅读 · 0 评论 -
scikit-learn 交叉验证绘图及原理实践
交叉验证返回的是平均均方误或平均判定正确率。from sklearn import datasetsfrom sklearn.cross_validation import cross_val_predictfrom sklearn import linear_modelimport matplotlib.pyplot as pltlr = linear_mod原创 2016-07-16 21:58:46 · 2940 阅读 · 0 评论 -
sklearn 谱聚类与文本挖掘初步(二)
在tf-idf概念中首先出现的是词频(Term frequency == TF)之后又有(inverse document frequency == IDF),这是一个用于防止类似过拟合的因子,这里过拟合的概念是指一些常出现的一些没有实际意义的词汇,类似于前面提到的停词(stop_word)用于减少这些词汇的相对重要性。tf-idf被定义为Term frequency 与翻译 2016-09-30 16:47:07 · 1921 阅读 · 0 评论 -
Python 对于机器学习模型 写并行及多线程版本
下面对于一个分析模型给出相应的并行(Python Parallel)及多线程(Theard)版本,为了学术上的代码保密使用了代码混淆工具对代码进行了加密,主要关注点在于如何进行并行及多线程重组。下面是示例代码:from __future__ import division #line:1import numpy as O0OO00000O0O0OO00 #line:2fro原创 2016-09-28 14:29:09 · 3690 阅读 · 4 评论 -
sklearn 源码解析 coordinate_descent.py Lasso回归 ElasticNet回归(1)
coordinate_descent.py Lasso回归 ElasticNet回归import sys import warnings from abc import ABCMeta, abstractmethod import numpy as np from scipy import sparse from .base import _pre_原创 2016-08-24 07:29:23 · 2091 阅读 · 0 评论 -
Scipy Lecture Notes(一)
由于某些科学计算及应用的高级命题的需要,对Scipy Lecture Notes展开学习。IPython的内置变量查询提供了如同Redis的 * 运算。在IPython中使用%matplotlib后,在利用matplotlib 进行画图时在显示图片时,不需要使用plt.show()命令。非同形数组相加,创造矩阵的例子:np.arange(6) + np.ar原创 2016-08-22 11:26:11 · 988 阅读 · 0 评论 -
Python R 线性回归 高斯回归 比较
使用的数据是公路一氧化碳数据,相应细节可参见下面链接:数据下载链接:http://www.statsci.org/data/general/cofreewy.htmlR设定工作目录指令setwd下面先使用R 的逐步回归选取AIC最小的普通线性模型实行最小二乘估计:w = read.table("COfreewy.txt", header = T)a = lm(C原创 2016-08-21 14:35:29 · 3724 阅读 · 1 评论 -
sklearn 源码解析 基本线性模型 岭回归 ridge.py(2)
class _BaseRidge(six.with_metaclass(ABCMeta, LinearModel)): @abstractmethod def __init__(self, alpha = 1.0, fit_intercept = True, normalize = False, copy_X = True, max_iter = None, tol =原创 2016-08-19 05:59:27 · 1544 阅读 · 0 评论 -
sklearn 源码解析 基本线性模型 岭回归 ridge.py(1)
对于前面已经提到的类及一些细节不再给出。对于稀疏矩阵的了解是必要的。from abc import ABCMeta, abstractmethod import warnings import numpy as np from scipy import linalg from scipy import sparse from scipy.sparse import原创 2016-08-18 07:21:01 · 1986 阅读 · 0 评论 -
sklearn 源码解析 基本线性模型 base.py
from __future__ import division from abc import ABCMeta, abstractmethod: 有关实现抽象类的方法。import numbers: 抽象基类层次结构,这些类不可被实例化。import warnings import numpy as np import scipy.sparse as sp from原创 2016-08-17 07:05:13 · 3941 阅读 · 0 评论 -
sklearn DBSCAN
DBSCAN 该聚类算法利用点周围密度的概念进行聚类,不一定要求类具有凸性,因为其可通过密度构造出噪声点。参数min_sample、eps给出核心点选择的定义,与esp为半径最少包含min_samples的为核心点。-1标记噪声点,非负整数标记类别。numpy.zeros_like:生成与给定序列shape相同的序列。下面是一个例子:(大点为核心点,翻译 2016-08-15 07:11:03 · 4277 阅读 · 6 评论 -
sklearn Hierarchical Clustering
层次聚类基于一定的规则生成树形结构(各个类数),比较消耗性能。AgglomerativeClustering: 使用自底向上的聚类方法。主要有三种聚类准则:complete(maximum) linkage: 两类间的距离用最远点距离表示。avarage linkage:平均距离。ward's method: 以组内平方和最小,组间平方和最大为目的。nu翻译 2016-08-15 07:07:59 · 7063 阅读 · 0 评论 -
近似因子模型Cython编译代码
/* Generated by Cython 0.24.1 *//* BEGIN: Cython Metadata{ "distutils": {}, "module_name": "redis.Learning"}END: Cython Metadata */#define PY_SSIZE_T_CLEAN#include "Python.h"#ifndef原创 2017-02-26 19:49:04 · 1194 阅读 · 0 评论 -
sklearn 谱聚类与文本挖掘初步(一)
有关双聚类的论述。产生双聚类的数据可以使用函数,sklearn.datasets.make_biclusters(shape = (row, col), n_clusters, noise, \shuffle, random_state)n_clusters 指定聚类数据产生的个数, noise指定使用的Gaussian噪声的标准差。其返回的是一个元组,即生成的数据,不同类的行翻译 2016-09-29 17:24:25 · 2834 阅读 · 0 评论 -
scikit-learn svm初探
下面的代码仅仅作为伪代码来看,因为拟合效果不好,思考是优化求解的问题,仅有w_bar_2_1的解是收敛的,但是拟合效果很差。svm实现要进一步思考。import numpy as npfrom sklearn import svmfrom scipy.optimize import minimizefrom numpy.linalg import norm原创 2016-07-16 21:59:49 · 774 阅读 · 0 评论 -
机器学习基础 维基翻译 超参数选择 K近邻法 及简单的sklearn例子
In the context of mechine learning, hyperparameter optimization or model selection is the problem of choosing a set of hyperparameters for a learning algorithm, usually with the goal of optimizing翻译 2016-07-16 22:06:07 · 1292 阅读 · 0 评论 -
sklearn Spectral Clustering
Spectral Clustering利用拉普拉斯矩阵的数值域衡量两类的区分关联度RatioCut,以关联度小为目标,转化为以特征值偏序的倒序(从小到大),使用相应特征向量作为K-means的k_features进行聚类。由于小特征向量度量的是数据扁平方向的相应特征(坐标轴),当然也严格对应于关联度小,考虑到此时,相应特征向量的元素就是样本点所属类别的表示,故利用K-mea翻译 2016-08-15 07:04:46 · 2928 阅读 · 0 评论 -
sklearn MeanShift
MeanShift方法基本上是通过核加权实现质心漂移的方法。sklearn.cluster.estimate_bandwith:用于估计加权核的带宽,n_samples参数指定用于估计的样本数,quantile指定至少被使用的指定数量样本数的分位数。(取值与[0, 1])sklearn.cluster.MeanShift:bin_seeding用来设定初始核的位翻译 2016-08-15 07:01:37 · 6671 阅读 · 0 评论 -
Affinity Propagation
Affinity propagation其中两点相似度s(i, j)的度量默认采用负欧氏距离。sklearn.cluster.AffinityPropagation 有参数preference(设定每一个点的偏好,将偏好于跟其他节点的相似性进行比较,选择高的作为exmplar,未设定则使用所有相似性的中位数)、damping (阻尼系数,利用阻尼系数与1-阻尼系数对r 及 a进翻译 2016-08-13 21:34:20 · 2031 阅读 · 0 评论 -
sklearn K-means MiniBatch-K-Means
K-means:K-means的注意事项,对于不同量纲(扁平数据)及(类别)非凸数据不适用,应当做PCA预处理。通过对协方差阵的估计可以看到,make_blobs是用单位协方差阵生成的。cluster_std为每个cluster的标准差。下面Anisotropicly Distributed Blobs施加的是强线性变换(无扰动)并强负相关变换后相关系数-0.950翻译 2016-08-13 21:30:28 · 2348 阅读 · 0 评论 -
sklearn GMM BIC 模型选择
BIC为似然函数与参数及样本量的组合,选择该值最小的模型。np.infty: inf对GMM模型直接调用bic就可以得到其值itertools.cycle: 实例化圆形迭代器,zip具有压缩取短的性质。这里还使用了凸组合:bic.min() * 0.97 + 0.03 * bic.max()下面是一个利用BIC选取GMM的例子:import itertools翻译 2016-08-13 21:25:57 · 7695 阅读 · 0 评论 -
sklearn GMM
sklearn.cross_validation.StratifiedKFold:分层交叉验证,使得交叉验证抽到的样本符合原始样本的比例。类GMM模型,_get_covars 应当返回每一个混合成分的协方差矩阵。np.linalg.eigh 返回特征值特征向量二元组。np.arctan2 返回的是两个序列比的弧度值,可以考虑手动转为角度值。mpl.pat翻译 2016-08-12 07:07:08 · 9008 阅读 · 2 评论 -
sklearn Gradient Tree Boosting
sklearn.metrics.mean_squared_error:标准均方误。Gradient Tree Boosting方法可以看作将AdaBoost方法的模型组合方式应用于决策树,但并不采取单点迭代惩罚加权,而是对某个模型采用对所有样本的距离模式(l2 l1 and so on)来求解。在GTB中设计后的模型中调用loss_可以返回使用的损失函数,可以用来计算单翻译 2016-08-11 07:21:21 · 1212 阅读 · 0 评论 -
sklearn Discrete AdaBoost vs Real AdaBoost
在组合式学习器中一般有参数learning_rate :学习速率 学习率这是一个取值在[0, 1]上的值,一些文章说其是用来在算法中用来设定迭代范围的,过大会导致过拟合,过拟合意味着拟合函数震荡不稳定,这在直观上是可以理解的。对于adaBoost组合模型调用staged_predict可以得到每个迭代阶段的预测值。sklearn.metrics.zero_one_l翻译 2016-08-08 21:43:42 · 1630 阅读 · 0 评论 -
sklearn PLS DecisionTree EnsembleMethods
偏最小二乘降维即利用单变量的逐次回归估出的参数向量作为成分(维数是相对应的)得到的先后成分由最小二乘回归的性质知是正交的。plt subplot方法指定numrows numcolumns numpage从而定位子图像。pls transform方法返回的是得分。PLS降维与CCA降维考虑区别应当是前者进行了归一化处理,而后者不是。import nump翻译 2016-08-07 15:54:39 · 1579 阅读 · 0 评论 -
Gaussian Process Regression
高斯过程的基本意义在于变量间的相关性仅与间隔有关。(相对距离)实质上高斯回归就是利用了高斯条件分布导出了分布而已,至于其均值表达形式(有噪声)与最小二乘回归(岭回归)类似是利用了条件分布是投影的意义,是直觉的。(不难看到套上分布假设的核岭回归就是所谓有噪声的高斯回归)非噪声的高斯回归可以看作对一个曲线拟合的概率显示。(拟合曲线有概率区间)参数corr可以选择回归所用的核翻译 2016-07-31 18:00:28 · 4878 阅读 · 0 评论 -
LDA and QDA
简单的R实现:library(MASS)Iris y_hat sum(y_hat == Iris$Sp)/150一般numpy中对于ndarray的处理对python内置list也是可以作用的。(构造函数实现了转型)下面对sklearn中线性判别及二次判别进行了调用,并与DIY二次判别进行比较,这里使用了python字符串执行及实例化函数exec及eva原创 2016-07-31 17:58:07 · 1535 阅读 · 0 评论 -
sklearn SVR与KRR对比
ravel方法为矩阵按行拉直。::这种切片运算可以通过设置步长来进行切片,由于切片属于view, 即对切片的修改会改变原数组。对数组进行升高维度的工作可以通过切片运算后加一个None(在新维度上取None完成) Ex: np.array([[1, 2], [3, 4]])[:,:,None]SVR由于没有显式解拟合较慢,但在预测上由于仅用到支持向量故比KRR快:简单代码翻译 2016-07-28 20:50:59 · 4379 阅读 · 0 评论 -
机器学习基础 维基翻译 Johnson-Lindenstrauss降维 应用于广义因子模型 及简单的sklearn例子
The Johnson-Lindenstrauss lemma states that any high dimensional dataset can be random projected into a lower dimensional Euclidean space while controlling the distortion in the pairwise distances翻译 2016-07-17 21:13:58 · 2389 阅读 · 0 评论 -
机器学习基础 维基翻译 典则相关分析 多标签分类 及简单的sklearn例子
The sklearn.muticlass module implements meta-estimators to solve muticlass and mutilabel classification problem bydecomposing such problem into binary classification problems.Multiclass clas翻译 2016-07-17 21:10:42 · 2674 阅读 · 0 评论 -
机器学习基础 维基翻译 保序回归 随机森林 Pipeline处理 及简单的sklearn例子
Isotonic regression(保序回归)In numerical analysis, isotonic regression (IR) involves finding a weighted least-squares fit x to Rn with weights vector w to Rn subject to a set of non-contradictory c翻译 2016-07-16 22:09:52 · 2292 阅读 · 0 评论