- 博客(17)
- 资源 (5)
- 问答 (2)
- 收藏
- 关注
原创 使用hadoopstreaming计算航空平均迟到时间
下属内容为本人的学习笔记:#!/usr/bin/env pythonimport sysimport csvSEP = "\t"class Mapper(object): def __init__(self, stream, sep=SEP): self.stream = stream self.sep = sep def emit(self, k
2017-05-28 18:03:16
636
原创 人工蜂群算法
人工蜂群算法是模仿蜜蜂行为提出的一种优化方法,是集群智能思想的一个具体应用,它的主要特点是不需要了解问题的特殊信息,只需要对问题进行优劣的比较,通过各人工蜂个体的局部寻优行为,最终在群体中使全局最优值突现出来,有着较快的收敛速度。为了解决多变量函数优化问题,Karaboga提出了人工蜂群算法ABC模型(artificial bee colony algorithm)。蜜蜂采蜜机理蜜蜂是一种群居昆虫,
2017-05-24 16:25:25
10029
1
原创 模拟退火算法
模拟退火算法(simulated annealing,SA)是一种概率算法,用来在一个大的搜索空间内找到命题的最优解。 模拟退火是来自冶金学的专有名词退火。退火是将材料加热后再经冷却,使得增大晶粒的体积,并减少晶格的缺陷。模拟退火的思想模拟退火是一种贪心算法,但在搜索过程中加入了随机因素,即在一定的概率下接受一个比当前解要差的解,这样就可能跳出局部最优解,可以证明,模拟退火以概率达到全局最优解。模
2017-05-23 15:54:20
3795
1
原创 特征选择之遗传算法
基于遗传算法的特征选择是一种wrapper方法,该算法是以支持向量机分类器的识别率作为特征选择的可分性判断依据。在遗传算法中,对所选择的特征用[0,1]二进制串来初始化,由于二进制数{0,1}是等概率出现的,所以最优特征个数的期望是原始特征个数的一半。要进一步减少特征个数,则可以让二进制数{0,1}以不等概率出现,以a个特征中选择b个特征为例,使得在a位二进制串中1出现的概率为b/ab/a。 对于
2017-05-22 12:21:54
19176
6
原创 excel数据导入MySQL数据库
今天要把excel中数据导入到MySQL数据库,以前只知道创建表,但是怎么把excel导入到MySQL还不知道,今天查了一些网上的资料,其实很简单,下面记录一下步骤,以备后用。更改数据格式把excel的数据格式更改为txt文件,一般是逗号分隔符分割。并且要注意到把数据的表头要去掉。创建表根据需要的字段创建一个表,比如我创建的是:CREATE TABLE linearregression(year
2017-05-20 22:45:39
572
原创 遗传算法及其实现
遗传算法是计算数学中用于解决最优化的搜索算法,是进化算法的一种。它是借鉴了生物进化学中的一些现象而发展起来的,这些现象包括遗传,突变,自然选择以及杂交等。遗传算法的思想遗传算法是模拟生物学种的进化论,物种朝着有利于自己的方向发展,这在遗传算法中表现为朝着最优化的方向发展。在进化过程中,遗传算法模拟基因的行为,首先选择有优势的基因,并对基因进行配对,然后等位基因进行交换,并有一定的概率进行基因变异,这
2017-05-19 10:45:38
3425
1
原创 特征选择之支持向量机递归特征消除(SVM-RFE)
支持向量机递归特征消除(下文简称SVM-RFE)是由Guyon等人在对癌症分类时提出来的,最初只能对两类数据进行特征提取。它是一种基于Embedded方法。支持向量机支持向量机广泛用于模式识别,机器学习等领域,SVM采用结构风险最小化原则,同时最小化经验误差,以此提高学习的性能。详细的SVM介绍请看我的另一篇博文《 线性支持向量机》在这简单介绍一下SVM。 设训练集{(xi,yi)}Ni=1\{(
2017-05-15 14:01:14
60913
17
原创 bp神经网络
bp神经网络也即误差后向传播神经网络,顾名思义,即误差是向后传播的。但是对于信号的传播是正向的。 bp神经网络由一个输入层,一个或多个隐含层和一个输出层组成,每层有一些单元组成,输入层的单元称为输入单元,隐层和输出层的单元称为神经节点或者输出单元,它们的网络是全连接的。 神经网络可以用于分类和数值预测,对于分类,一个输出单元可以用来表示两个类,如果多于两个类,则每个类使用一个输出单元。向前传播输
2017-05-13 12:53:06
1666
原创 特征选择之最小冗余最大相关性(mRMR)
最小冗余最大相关性(mRMR)是一种滤波式的特征选择方法,由Peng et.al提出。 用途:图像识别,机器学习等 一种常用的特征选择方法是最大化特征与分类变量之间的相关度,就是选择与分类变量拥有最高相关度的前k个变量。但是,在特征选择中,单个好的特征的组合并不能增加分类器的性能,因为有可能特征之间是高度相关的,这就导致了特征变量的冗余。这就是Peng et.al说的“the m best fe
2017-05-12 17:37:04
41551
40
原创 特征选择之relief及reliefF算法
relief算法Relief算法最早由Kira提出,最初局限于两类数据的分类问题。Relief算法是一种特征权重算法(Feature weighting algorithms),根据各个特征和类别的相关性赋予特征不同的权重,权重小于某个阈值的特征将被移除。Relief算法中特征和类别的相关性是基于特征对近距离样本的区分能力。算法从训练集D中随机选择一个样本R,然后从和R同类的样本中寻找最近邻样本H,
2017-05-11 12:01:57
56989
12
原创 特征选择之基于相关性的特征选择(CFS)
此为本人学习笔记,转载请劳烦告知!特征选择特征抽取整合原始特征,这样可能产生一些新的特征,而特征选择是去除无关紧要或庸余的特征,仍然还保留其他原始特征。特征提取主要用于图像分析,信号处理和信息检索领域,在这些领域,模型精确度比模型可解释性要重要;特征选择主要用于数据挖掘,像文本挖掘,基因分析和传感器数据处理。今天主要做的是特征选择。特征选择定义:检测相关特征,摒弃冗余特征,以获得特征子集,从而以最小
2017-05-10 16:28:01
45116
45
原创 线性判别分析(LDA)
线性判别分析(LDA)是一种监督学习方法,和主成分分析(PCA)一样,其主要用来降维。有些资料也把LDA称为Fisher线性判别(FLD)。LDA在机器学习,图像识别,数据挖掘等领域有着广泛的应用。LDA的基本思想就是:给定训练样本集,设法将样本投影到一条直线上,使得同类样本的投影点尽可能地接近,异类样本的投影点尽可能远离,在对新样本进行分类时,将其投影到相同的这条直线上,再根据投影点的位置来确定新
2017-05-09 14:33:10
1724
1
转载 centos中安装Python2.7
转载于:秋水逸冰 » CentOS 6.8安装Python2.7.13查看当前系统中的 Python 版本python –version 返回 Python 2.6.6 为正常。检查 CentOS 版本cat /etc/redhat-release 返回 CentOS release 6.8 (Final) 为正常。安装所有的开发工具包yum groupinstall -y “Developme
2017-05-03 21:05:15
853
原创 三次Hermite插值
设f(x)f(x)在节点a≤x0,x1,⋯,xn≤ba\le x_0, x_1,\cdots,x_n\le b处的函数值为f0,f1,...,fnf_0,f_1,...,f_n,设P(x)为f(x)P(x)为f(x)在区间[a,b][a,b]上的具有一阶导数的插值函数 (1)若要求P(x)P(x)在[a,b][a,b]上具有一阶导数(一阶光滑度) P(xi)=f(xi)=fiP′(xi)=f′(
2017-05-03 11:41:16
42316
4
原创 hadoop集成RHive
注:集群中的每个节点都需要安装将相关tar包和rpm包拷贝至/usr/R3.2/cd /usr/R3.2tar zxvf R-3.2.0.tar.gzRpm包更新rpm -Uvh libgcc-4.4.7-17.el6.x86_64.rpm rpm -Uvh libgomp-4.4.7-17.el6.x86_64.rpmrpm -Uvh mpfr-2.4.1-6.el6.x86_64.r
2017-05-03 09:56:54
499
原创 牛顿插值法
差商差商的定义: 函数f(x)f(x)在两个互异点xi,xjx_i,x_j处的一阶差商定义为: f[xi,xj]=f(xi)−f(xj)xi−xj(i≠j,xi≠xj)f[x_i,x_j]=\frac{f(x_i)-f(x_j)}{x_i-x_j} (i\ne j,x_i\ne x_j) 2阶差商: f[xi,xj,xk]=f[xi,xj]−f[xj,xk]xi−xk(i≠k)f[x_i,x
2017-05-03 09:48:18
45115
1
原创 拉格朗日插值法
线性插值法线性插值法是指使用链接两个已知量的直线来确定在这两个已知量之间的一个未知量的值的方法。 假设已知坐标(x0,y0)(x_0,y_0)与(x1,y1)(x_1,y_1),要得到[x0,x1][x_0,x_1]区间内某一位置xx在直线上的值,根据图中所示,得到两点式直线方程: y−y0y1−y0=x−x0x1−x0y=y0+y1−y0x1−x0(x−x0)\frac{y-y_0}{y_1-
2017-05-03 08:45:07
5346
c语言控制台输出中文乱码问题
2018-03-28
非法类型开始与标识符
2017-08-07
TA创建的收藏夹 TA关注的收藏夹
TA关注的人