2016年08月_斯温jack

原创重拾C++ 关联容器

关联容器set:C++中的set与Python中的不同在于前者是有序集，后者是无序集（这与Python中利用hash实现有很大关系），前者考虑是红黑树。故（C++）set的特点应该是实现优先队列。（用重载比较运算符的类充当元素）简单的检测可以用如下的例子：class Base{public: string name;

2016-08-29 14:12:02 413

原创重拾C++ 泛型算法

vector有一些操纵大小的操作，capacity()打印现在的大小，reserve(n)保持储存n个元素，shrink_to_fit()将capacity恢复到现在容器的大小。reserve并不会减少空间或代替resize的能力。看来这种相当的简单。跳过下面有关string的部分。容器适配器，是基于一些顺序容器构造的数据结构，这些数据结构要根据基本的底层容器进行初始化。（利用

2016-08-28 10:52:22 741

原创重拾C++ 顺序容器

C++标准库string与其它常见的初始化方式不同的是，其提供可字符重复（及次数）的初始化方法。其是否使用"="进行初始化与构造函数的设定有关。（注意初始化时不能使字符串重复初始化而来）类的初始化方式兼有声明的作用，即同时声明并初始化类实例，这对一些脚本语言（python：基本没有声明的意义，运行时解析）是无用的。string具有字符粘贴能力（python 同样有），这

2016-08-28 10:50:55 442

原创重拾C++ 编程基础

C中的宏一般仅仅是一些常量的定义，可以对应于c++中的枚举。C语言中printf执行格式化输出，%m.pf执行至少m位保留p为小数的float输出，默认为右对齐的，当在m前添加-后执行左对齐，由于至少m位的的设定，不会造成值的丢失。只省略p对.的省略情况会造成不同的结果。scanf具有将不能识别的字符放回原处的特点，对不能识别的字符认为是输入终止的信号。对空白字符的处理也是一样

2016-08-28 10:49:15 461

原创 sklearn 源码解析 coordinate_descent.py Lasso回归 ElasticNet回归(1)

coordinate_descent.py Lasso回归 ElasticNet回归import sys import warnings from abc import ABCMeta, abstractmethod import numpy as np from scipy import sparse from .base import _pre_

2016-08-24 07:29:23 2091

原创 Scipy Lecture Notes（一）

由于某些科学计算及应用的高级命题的需要，对Scipy Lecture Notes展开学习。IPython的内置变量查询提供了如同Redis的 * 运算。在IPython中使用%matplotlib后，在利用matplotlib 进行画图时在显示图片时，不需要使用plt.show()命令。非同形数组相加，创造矩阵的例子：np.arange(6) + np.ar

2016-08-22 11:26:11 988

原创 Python R 线性回归高斯回归比较

使用的数据是公路一氧化碳数据，相应细节可参见下面链接：数据下载链接：http://www.statsci.org/data/general/cofreewy.htmlR设定工作目录指令setwd下面先使用R 的逐步回归选取AIC最小的普通线性模型实行最小二乘估计：w = read.table("COfreewy.txt", header = T)a = lm(C

2016-08-21 14:35:29 3723 1

原创 Pandas 初探（一）

pandas import pandas as pd import numpy as npimport matplotlib.pyplot as plt # s has the type of Seriess = pd.Series([1, 3, 5, np.nan, 6, 8])# dates can generate dates interfac

2016-08-20 11:05:43 926

原创 sklearn 源码解析基本线性模型岭回归 ridge.py(2)

class _BaseRidge(six.with_metaclass(ABCMeta, LinearModel)): @abstractmethod def __init__(self, alpha = 1.0, fit_intercept = True, normalize = False, copy_X = True, max_iter = None, tol =

2016-08-19 05:59:27 1543

原创 sklearn 源码解析基本线性模型岭回归 ridge.py(1)

对于前面已经提到的类及一些细节不再给出。对于稀疏矩阵的了解是必要的。from abc import ABCMeta, abstractmethod import warnings import numpy as np from scipy import linalg from scipy import sparse from scipy.sparse import

2016-08-18 07:21:01 1986

原创 sklearn 源码解析基本线性模型 base.py

from __future__ import division from abc import ABCMeta, abstractmethod: 有关实现抽象类的方法。import numbers: 抽象基类层次结构，这些类不可被实例化。import warnings import numpy as np import scipy.sparse as sp from

2016-08-17 07:05:13 3941

翻译 sklearn DBSCAN

DBSCAN 该聚类算法利用点周围密度的概念进行聚类，不一定要求类具有凸性，因为其可通过密度构造出噪声点。参数min_sample、eps给出核心点选择的定义，与esp为半径最少包含min_samples的为核心点。-1标记噪声点，非负整数标记类别。numpy.zeros_like:生成与给定序列shape相同的序列。下面是一个例子：（大点为核心点，

2016-08-15 07:11:03 4277 6

翻译 sklearn Hierarchical Clustering

层次聚类基于一定的规则生成树形结构（各个类数）,比较消耗性能。AgglomerativeClustering: 使用自底向上的聚类方法。主要有三种聚类准则：complete(maximum) linkage: 两类间的距离用最远点距离表示。avarage linkage:平均距离。ward's method: 以组内平方和最小，组间平方和最大为目的。nu

2016-08-15 07:07:59 7063

翻译 sklearn Spectral Clustering

Spectral Clustering利用拉普拉斯矩阵的数值域衡量两类的区分关联度RatioCut,以关联度小为目标，转化为以特征值偏序的倒序（从小到大），使用相应特征向量作为K-means的k_features进行聚类。由于小特征向量度量的是数据扁平方向的相应特征（坐标轴），当然也严格对应于关联度小，考虑到此时，相应特征向量的元素就是样本点所属类别的表示，故利用K-mea

2016-08-15 07:04:46 2928

翻译 sklearn MeanShift

MeanShift方法基本上是通过核加权实现质心漂移的方法。sklearn.cluster.estimate_bandwith:用于估计加权核的带宽，n_samples参数指定用于估计的样本数，quantile指定至少被使用的指定数量样本数的分位数。（取值与[0, 1]）sklearn.cluster.MeanShift:bin_seeding用来设定初始核的位

2016-08-15 07:01:37 6671

翻译 Affinity Propagation

Affinity propagation其中两点相似度s(i, j)的度量默认采用负欧氏距离。sklearn.cluster.AffinityPropagation 有参数preference（设定每一个点的偏好，将偏好于跟其他节点的相似性进行比较，选择高的作为exmplar,未设定则使用所有相似性的中位数）、damping （阻尼系数，利用阻尼系数与1-阻尼系数对r 及 a进

2016-08-13 21:34:20 2031

翻译 sklearn K-means MiniBatch-K-Means

K-means:K-means的注意事项，对于不同量纲（扁平数据）及（类别）非凸数据不适用，应当做PCA预处理。通过对协方差阵的估计可以看到，make_blobs是用单位协方差阵生成的。cluster_std为每个cluster的标准差。下面Anisotropicly Distributed Blobs施加的是强线性变换（无扰动）并强负相关变换后相关系数-0.950

2016-08-13 21:30:28 2348

翻译 sklearn GMM BIC 模型选择

BIC为似然函数与参数及样本量的组合，选择该值最小的模型。np.infty: inf对GMM模型直接调用bic就可以得到其值itertools.cycle: 实例化圆形迭代器，zip具有压缩取短的性质。这里还使用了凸组合：bic.min() * 0.97 + 0.03 * bic.max()下面是一个利用BIC选取GMM的例子：import itertools

2016-08-13 21:25:57 7693

翻译 sklearn GMM

sklearn.cross_validation.StratifiedKFold:分层交叉验证，使得交叉验证抽到的样本符合原始样本的比例。类GMM模型，_get_covars 应当返回每一个混合成分的协方差矩阵。np.linalg.eigh 返回特征值特征向量二元组。np.arctan2 返回的是两个序列比的弧度值，可以考虑手动转为角度值。mpl.pat

2016-08-12 07:07:08 9008 2

翻译 sklearn Gradient Tree Boosting

sklearn.metrics.mean_squared_error:标准均方误。Gradient Tree Boosting方法可以看作将AdaBoost方法的模型组合方式应用于决策树，但并不采取单点迭代惩罚加权，而是对某个模型采用对所有样本的距离模式（l2 l1 and so on）来求解。在GTB中设计后的模型中调用loss_可以返回使用的损失函数，可以用来计算单

2016-08-11 07:21:21 1212

翻译 sklearn Discrete AdaBoost vs Real AdaBoost

在组合式学习器中一般有参数learning_rate :学习速率学习率这是一个取值在[0, 1]上的值，一些文章说其是用来在算法中用来设定迭代范围的，过大会导致过拟合，过拟合意味着拟合函数震荡不稳定，这在直观上是可以理解的。对于adaBoost组合模型调用staged_predict可以得到每个迭代阶段的预测值。sklearn.metrics.zero_one_l

2016-08-08 21:43:42 1630

翻译 sklearn PLS DecisionTree EnsembleMethods

偏最小二乘降维即利用单变量的逐次回归估出的参数向量作为成分（维数是相对应的）得到的先后成分由最小二乘回归的性质知是正交的。plt subplot方法指定numrows numcolumns numpage从而定位子图像。pls transform方法返回的是得分。PLS降维与CCA降维考虑区别应当是前者进行了归一化处理，而后者不是。import nump

2016-08-07 15:54:39 1578

斯温的博客