自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(22)
  • 问答 (3)
  • 收藏
  • 关注

原创 重拾C++ 关联容器

关联容器set:C++中的set与Python中的不同在于前者是有序集,后者是无序集(这与Python中利用hash实现有很大关系),前者考虑是红黑树。故(C++)set的特点应该是实现优先队列。(用重载比较运算符的类充当元素)简单的检测可以用如下的例子:class Base{public:        string name;

2016-08-29 14:12:02 413

原创 重拾C++ 泛型算法

vector有一些操纵大小的操作,capacity()打印现在的大小,reserve(n)保持储存n个元素,shrink_to_fit()将capacity恢复到现在容器的大小。reserve并不会减少空间或代替resize的能力。看来这种相当的简单。跳过下面有关string的部分。容器适配器,是基于一些顺序容器构造的数据结构,这些数据结构要根据基本的底层容器进行初始化。(利用

2016-08-28 10:52:22 741

原创 重拾C++ 顺序容器

C++标准库string与其它常见的初始化方式不同的是,其提供可字符重复(及次数)的初始化方法。其是否使用"="进行初始化与构造函数的设定有关。(注意初始化时不能使字符串重复初始化而来)类的初始化方式兼有声明的作用,即同时声明并初始化类实例,这对一些脚本语言(python:基本没有声明的意义,运行时解析)是无用的。string具有字符粘贴能力(python 同样有),这

2016-08-28 10:50:55 442

原创 重拾C++ 编程基础

C中的宏一般仅仅是一些常量的定义,可以对应于c++中的枚举。C语言中printf执行格式化输出,%m.pf执行至少m位保留p为小数的float输出,默认为右对齐的,当在m前添加-后执行左对齐,由于至少m位的的设定,不会造成值的丢失。只省略p对.的省略情况会造成不同的结果。scanf具有将不能识别的字符放回原处的特点,对不能识别的字符认为是输入终止的信号。对空白字符的处理也是一样

2016-08-28 10:49:15 461

原创 sklearn 源码解析 coordinate_descent.py Lasso回归 ElasticNet回归(1)

coordinate_descent.py Lasso回归 ElasticNet回归import sys import warnings from abc import ABCMeta, abstractmethod import numpy as np from scipy import sparse from .base import _pre_

2016-08-24 07:29:23 2091

原创 Scipy Lecture Notes(一)

由于某些科学计算及应用的高级命题的需要,对Scipy Lecture Notes展开学习。IPython的内置变量查询提供了如同Redis的 * 运算。在IPython中使用%matplotlib后,在利用matplotlib 进行画图时在显示图片时,不需要使用plt.show()命令。非同形数组相加,创造矩阵的例子:np.arange(6) + np.ar

2016-08-22 11:26:11 988

原创 Python R 线性回归 高斯回归 比较

使用的数据是公路一氧化碳数据,相应细节可参见下面链接:数据下载链接:http://www.statsci.org/data/general/cofreewy.htmlR设定工作目录指令setwd下面先使用R 的逐步回归选取AIC最小的普通线性模型实行最小二乘估计:w = read.table("COfreewy.txt", header = T)a = lm(C

2016-08-21 14:35:29 3723 1

原创 Pandas 初探(一)

pandas import pandas as pd import numpy as npimport matplotlib.pyplot as plt # s has the type of Seriess = pd.Series([1, 3, 5, np.nan, 6, 8])# dates can generate dates interfac

2016-08-20 11:05:43 926

原创 sklearn 源码解析 基本线性模型 岭回归 ridge.py(2)

class _BaseRidge(six.with_metaclass(ABCMeta, LinearModel)): @abstractmethod def __init__(self, alpha = 1.0, fit_intercept = True, normalize = False,     copy_X = True, max_iter = None, tol =

2016-08-19 05:59:27 1543

原创 sklearn 源码解析 基本线性模型 岭回归 ridge.py(1)

对于前面已经提到的类及一些细节不再给出。对于稀疏矩阵的了解是必要的。from abc import ABCMeta, abstractmethod import warnings import numpy as np from scipy import linalg from scipy import sparse from scipy.sparse import

2016-08-18 07:21:01 1986

原创 sklearn 源码解析 基本线性模型 base.py

from __future__ import division from abc import ABCMeta, abstractmethod: 有关实现抽象类的方法。import numbers: 抽象基类层次结构,这些类不可被实例化。import warnings import numpy as np import scipy.sparse as sp from

2016-08-17 07:05:13 3941

翻译 sklearn DBSCAN

DBSCAN 该聚类算法利用点周围密度的概念进行聚类,不一定要求类具有凸性,因为其可通过密度构造出噪声点。参数min_sample、eps给出核心点选择的定义,与esp为半径最少包含min_samples的为核心点。-1标记噪声点,非负整数标记类别。numpy.zeros_like:生成与给定序列shape相同的序列。下面是一个例子:(大点为核心点,

2016-08-15 07:11:03 4277 6

翻译 sklearn Hierarchical Clustering

层次聚类基于一定的规则生成树形结构(各个类数),比较消耗性能。AgglomerativeClustering: 使用自底向上的聚类方法。主要有三种聚类准则:complete(maximum) linkage: 两类间的距离用最远点距离表示。avarage linkage:平均距离。ward's method: 以组内平方和最小,组间平方和最大为目的。nu

2016-08-15 07:07:59 7063

翻译 sklearn Spectral Clustering

Spectral Clustering利用拉普拉斯矩阵的数值域衡量两类的区分关联度RatioCut,以关联度小为目标,转化为以特征值偏序的倒序(从小到大),使用相应特征向量作为K-means的k_features进行聚类。由于小特征向量度量的是数据扁平方向的相应特征(坐标轴),当然也严格对应于关联度小,考虑到此时,相应特征向量的元素就是样本点所属类别的表示,故利用K-mea

2016-08-15 07:04:46 2928

翻译 sklearn MeanShift

MeanShift方法基本上是通过核加权实现质心漂移的方法。sklearn.cluster.estimate_bandwith:用于估计加权核的带宽,n_samples参数指定用于估计的样本数,quantile指定至少被使用的指定数量样本数的分位数。(取值与[0, 1])sklearn.cluster.MeanShift:bin_seeding用来设定初始核的位

2016-08-15 07:01:37 6671

翻译 Affinity Propagation

Affinity propagation其中两点相似度s(i, j)的度量默认采用负欧氏距离。sklearn.cluster.AffinityPropagation 有参数preference(设定每一个点的偏好,将偏好于跟其他节点的相似性进行比较,选择高的作为exmplar,未设定则使用所有相似性的中位数)、damping (阻尼系数,利用阻尼系数与1-阻尼系数对r 及 a进

2016-08-13 21:34:20 2031

翻译 sklearn K-means MiniBatch-K-Means

K-means:K-means的注意事项,对于不同量纲(扁平数据)及(类别)非凸数据不适用,应当做PCA预处理。通过对协方差阵的估计可以看到,make_blobs是用单位协方差阵生成的。cluster_std为每个cluster的标准差。下面Anisotropicly Distributed Blobs施加的是强线性变换(无扰动)并强负相关变换后相关系数-0.950

2016-08-13 21:30:28 2348

翻译 sklearn GMM BIC 模型选择

BIC为似然函数与参数及样本量的组合,选择该值最小的模型。np.infty: inf对GMM模型直接调用bic就可以得到其值itertools.cycle: 实例化圆形迭代器,zip具有压缩取短的性质。这里还使用了凸组合:bic.min() * 0.97 + 0.03 * bic.max()下面是一个利用BIC选取GMM的例子:import itertools

2016-08-13 21:25:57 7693

翻译 sklearn GMM

sklearn.cross_validation.StratifiedKFold:分层交叉验证,使得交叉验证抽到的样本符合原始样本的比例。类GMM模型,_get_covars 应当返回每一个混合成分的协方差矩阵。np.linalg.eigh 返回特征值特征向量二元组。np.arctan2 返回的是两个序列比的弧度值,可以考虑手动转为角度值。mpl.pat

2016-08-12 07:07:08 9008 2

翻译 sklearn Gradient Tree Boosting

sklearn.metrics.mean_squared_error:标准均方误。Gradient Tree Boosting方法可以看作将AdaBoost方法的模型组合方式应用于决策树,但并不采取单点迭代惩罚加权,而是对某个模型采用对所有样本的距离模式(l2 l1 and so on)来求解。在GTB中设计后的模型中调用loss_可以返回使用的损失函数,可以用来计算单

2016-08-11 07:21:21 1212

翻译 sklearn Discrete AdaBoost vs Real AdaBoost

在组合式学习器中一般有参数learning_rate :学习速率 学习率这是一个取值在[0, 1]上的值,一些文章说其是用来在算法中用来设定迭代范围的,过大会导致过拟合,过拟合意味着拟合函数震荡不稳定,这在直观上是可以理解的。对于adaBoost组合模型调用staged_predict可以得到每个迭代阶段的预测值。sklearn.metrics.zero_one_l

2016-08-08 21:43:42 1630

翻译 sklearn PLS DecisionTree EnsembleMethods

偏最小二乘降维即利用单变量的逐次回归估出的参数向量作为成分(维数是相对应的)得到的先后成分由最小二乘回归的性质知是正交的。plt subplot方法指定numrows numcolumns numpage从而定位子图像。pls transform方法返回的是得分。PLS降维与CCA降维考虑区别应当是前者进行了归一化处理,而后者不是。import nump

2016-08-07 15:54:39 1578

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除