littlely_ll-CSDN博客

原创 python实现各种排序算法

python排序算法# -*-encoding: utf-8 -*-# param: a a list which to be sortclass MultiSort(object): # 交换函数 def exch(self, a, i, j): temp = a[i] a[i] = a[j] a[j] = temp

2017-09-25 20:41:26 1621

合页损失函数[z]+={z,z>00,z≤0[z]_{+} = \{^{z, z >0}_{0, z\le 0}SVM的目标函数对于线性SVM，我们知道它的原始最优化问题为： minw,b,ξ1/2||w||2+CΣNi=1ξis.t.yi(w⋅xi+b)≥1−ξi,i=1,2,...,Nξi≥0,i=1,2,...,Nmin_{w,b,\xi} 1/2||w||^2 +C \Sigma_{i=1

2017-09-25 12:47:33 751

原创 Spark Streaming总结

初始化StreamingContext创建SparkContext后要做的事情： 1. 通过创建DStreams定义输出源 2. 通过应用transform算子定义流计算，输出操作到Dstream 3. 用streamingContext.start()开始接受数据并进行处理 4. 用streamingContext.awaitTermination()等待处

2017-09-24 16:37:44 395

原创 Java异常的限制

class BaseballException extends Exception{}class Foul extends BaseballException{}class Strike extends BaseballException{}abstract class Inning{ public Inning() throws BaseballException{} public

2017-08-28 10:01:38 301

原创 java的内部类

在使用内部类时，如果想从外部类除了静态方法之外的任意位置创建内部类对象，那么必须具体指明这个对象的类型：OuterClassName.InnerClassName。内部类可以访问外部类的方法和字段。要想直接创建内部类对象，必须使用外部类的对象来创建内部类对象。interface Dest{ String readLine();//自动转换为public}interface Cont{

2017-08-23 17:49:01 284

原创对象浅复制和深复制的几个问题

一、“==”与“is”==运算符是比较的两个对象的值，而is比较的是对象的标识。例如：a = [1,2,3]b = ac=list(a) a == b == c ##返回Trueid(a) == id(b) ##返回Trueid(a) == id(c) ##返回False这里a指向对象[1,2,3]，而b是对象[1,2,3]的别名，也就是说，a和b都指向[1,2,3]这个对象，所以他们的值

2017-08-20 18:47:10 339

原创 matplotlib作图添加表格

import matplotlib.pyplot as pltimport numpy as npplt.figure()ax = plt.gca()y = np.random.randn(9)col_labels = ['col1','col2','col3']row_labels = ['row1','row2','row3']table_vals = [[11,12,13],[21,

2017-07-08 21:21:50 14840

原创 matplotlib作图布局

plt.figure(0)axes1 = plt.subplot2grid((3,3), (0,0), colspan=3)#(0,0)开始，占3列axes2 = plt.subplot2grid((3,3), (1,0), colspan=2)#(1,0)开始，占2列axes3 = plt.subplot2grid((3,3), (1,2))axes4 = plt.subplot2grid

2017-07-08 21:19:24 619

原创 matplotlib时间坐标设置

import matplotlib.pyplot as pltimport numpy as npimport matplotlib as mplimport datetime as dtfig = plt.figure()ax2 = fig.add_subplot(212)date2_1 = dt.datetime(2008,9,23)date2_2 = dt.datetime(200

2017-07-08 21:13:03 6122

原创 centos6.5安装hadoop2

准备Linux环境点击VMware快捷方式，右键打开文件所在位置 -> 双击vmnetcfg.exe -> VMnet1 host-only ->修改subnet ip 设置网段：192.168.1.90 （这儿需要对应自己的地址）子网掩码：255.255.255.0 -> apply -> ok 回到windows –> 打开网络和共享中心 -> 更改适配器设置 -> 右键VMn

2017-06-25 20:53:21 464

原创 centos6.5安装spark2

centos安装好JAVA JDK，hadoop2.7，scala后，可以直接安装spark2了。安装spark还是比较简单的。首先是下载好spark(需要和Scala版本对应)，解压到一个目录中，然后在环境变量中添加spark的路径。另外，在spark路径下的conf文件下的spark-env.sh.template修改为spark-env.sh，并对其内容增加环境变量：export JRE_HO

2017-06-25 20:37:50 880

转载 Centos下安装Mysql

一、二进制免编译包安装参考：http://www.apelearn.com/bbs/forum.php?mod=viewthread&tid=10105&highlight=mysql5.71、下载地址： http://mirrors.sohu.com/mysql/MySQL-5.7/ 文件名还glibc的为免编译的二进制安装包文件: mysql-5.7.13-linux-

2017-06-22 21:12:11 226

原创 spark分析航班总拖延时间

import csvimport matplotlib.pyplot as pltfrom StringIO import StringIOfrom datetime import datetimefrom collections import namedtuplefrom operator import add, itemgetterfrom pyspark import SparkCo

2017-06-11 22:04:15 824

原创使用hadoopstreaming计算航空平均迟到时间

下属内容为本人的学习笔记：#!/usr/bin/env pythonimport sysimport csvSEP = "\t"class Mapper(object): def __init__(self, stream, sep=SEP): self.stream = stream self.sep = sep def emit(self, k

2017-05-28 18:03:16 552

原创人工蜂群算法

人工蜂群算法是模仿蜜蜂行为提出的一种优化方法，是集群智能思想的一个具体应用，它的主要特点是不需要了解问题的特殊信息，只需要对问题进行优劣的比较，通过各人工蜂个体的局部寻优行为，最终在群体中使全局最优值突现出来，有着较快的收敛速度。为了解决多变量函数优化问题，Karaboga提出了人工蜂群算法ABC模型（artificial bee colony algorithm）。蜜蜂采蜜机理蜜蜂是一种群居昆虫，

2017-05-24 16:25:25 9502

原创模拟退火算法

模拟退火算法(simulated annealing,SA)是一种概率算法，用来在一个大的搜索空间内找到命题的最优解。模拟退火是来自冶金学的专有名词退火。退火是将材料加热后再经冷却，使得增大晶粒的体积，并减少晶格的缺陷。模拟退火的思想模拟退火是一种贪心算法，但在搜索过程中加入了随机因素，即在一定的概率下接受一个比当前解要差的解，这样就可能跳出局部最优解，可以证明，模拟退火以概率达到全局最优解。模

2017-05-23 15:54:20 3202

原创特征选择之遗传算法

基于遗传算法的特征选择是一种wrapper方法，该算法是以支持向量机分类器的识别率作为特征选择的可分性判断依据。在遗传算法中，对所选择的特征用[0,1]二进制串来初始化，由于二进制数{0，1}是等概率出现的，所以最优特征个数的期望是原始特征个数的一半。要进一步减少特征个数，则可以让二进制数{0，1}以不等概率出现，以a个特征中选择b个特征为例，使得在a位二进制串中1出现的概率为b/ab/a。对于

2017-05-22 12:21:54 18697 6

原创 excel数据导入MySQL数据库

今天要把excel中数据导入到MySQL数据库，以前只知道创建表，但是怎么把excel导入到MySQL还不知道，今天查了一些网上的资料，其实很简单，下面记录一下步骤，以备后用。更改数据格式把excel的数据格式更改为txt文件，一般是逗号分隔符分割。并且要注意到把数据的表头要去掉。创建表根据需要的字段创建一个表，比如我创建的是：CREATE TABLE linearregression(year

2017-05-20 22:45:39 505

原创遗传算法及其实现

遗传算法是计算数学中用于解决最优化的搜索算法，是进化算法的一种。它是借鉴了生物进化学中的一些现象而发展起来的，这些现象包括遗传，突变，自然选择以及杂交等。遗传算法的思想遗传算法是模拟生物学种的进化论，物种朝着有利于自己的方向发展，这在遗传算法中表现为朝着最优化的方向发展。在进化过程中，遗传算法模拟基因的行为，首先选择有优势的基因，并对基因进行配对，然后等位基因进行交换，并有一定的概率进行基因变异，这

2017-05-19 10:45:38 3236

原创特征选择之支持向量机递归特征消除（SVM-RFE）

支持向量机递归特征消除(下文简称SVM-RFE)是由Guyon等人在对癌症分类时提出来的，最初只能对两类数据进行特征提取。它是一种基于Embedded方法。支持向量机支持向量机广泛用于模式识别，机器学习等领域，SVM采用结构风险最小化原则，同时最小化经验误差，以此提高学习的性能。详细的SVM介绍请看我的另一篇博文《线性支持向量机》在这简单介绍一下SVM。设训练集{(xi,yi)}Ni=1\{(

2017-05-15 14:01:14 58512 17

原创 bp神经网络

bp神经网络也即误差后向传播神经网络，顾名思义，即误差是向后传播的。但是对于信号的传播是正向的。 bp神经网络由一个输入层，一个或多个隐含层和一个输出层组成，每层有一些单元组成，输入层的单元称为输入单元，隐层和输出层的单元称为神经节点或者输出单元，它们的网络是全连接的。神经网络可以用于分类和数值预测，对于分类，一个输出单元可以用来表示两个类，如果多于两个类，则每个类使用一个输出单元。向前传播输

2017-05-13 12:53:06 1532

原创特征选择之最小冗余最大相关性(mRMR)

最小冗余最大相关性(mRMR)是一种滤波式的特征选择方法，由Peng et.al提出。用途：图像识别，机器学习等一种常用的特征选择方法是最大化特征与分类变量之间的相关度，就是选择与分类变量拥有最高相关度的前k个变量。但是，在特征选择中，单个好的特征的组合并不能增加分类器的性能，因为有可能特征之间是高度相关的，这就导致了特征变量的冗余。这就是Peng et.al说的“the m best fe

2017-05-12 17:37:04 39664 40

原创特征选择之relief及reliefF算法

relief算法Relief算法最早由Kira提出，最初局限于两类数据的分类问题。Relief算法是一种特征权重算法(Feature weighting algorithms)，根据各个特征和类别的相关性赋予特征不同的权重，权重小于某个阈值的特征将被移除。Relief算法中特征和类别的相关性是基于特征对近距离样本的区分能力。算法从训练集D中随机选择一个样本R，然后从和R同类的样本中寻找最近邻样本H，

2017-05-11 12:01:57 47904 12

原创特征选择之基于相关性的特征选择（CFS）

此为本人学习笔记，转载请劳烦告知！特征选择特征抽取整合原始特征，这样可能产生一些新的特征，而特征选择是去除无关紧要或庸余的特征，仍然还保留其他原始特征。特征提取主要用于图像分析，信号处理和信息检索领域，在这些领域，模型精确度比模型可解释性要重要；特征选择主要用于数据挖掘，像文本挖掘，基因分析和传感器数据处理。今天主要做的是特征选择。特征选择定义：检测相关特征，摒弃冗余特征，以获得特征子集，从而以最小

2017-05-10 16:28:01 43164 45

原创线性判别分析（LDA）

线性判别分析(LDA)是一种监督学习方法，和主成分分析（PCA）一样，其主要用来降维。有些资料也把LDA称为Fisher线性判别（FLD）。LDA在机器学习，图像识别，数据挖掘等领域有着广泛的应用。LDA的基本思想就是：给定训练样本集，设法将样本投影到一条直线上，使得同类样本的投影点尽可能地接近，异类样本的投影点尽可能远离，在对新样本进行分类时，将其投影到相同的这条直线上，再根据投影点的位置来确定新

2017-05-09 14:33:10 1239

转载 centos中安装Python2.7

转载于：秋水逸冰 » CentOS 6.8安装Python2.7.13查看当前系统中的 Python 版本python –version 返回 Python 2.6.6 为正常。检查 CentOS 版本cat /etc/redhat-release 返回 CentOS release 6.8 (Final) 为正常。安装所有的开发工具包yum groupinstall -y “Developme

2017-05-03 21:05:15 752

原创三次Hermite插值

设f(x)f(x)在节点a≤x0,x1,⋯,xn≤ba\le x_0, x_1,\cdots,x_n\le b处的函数值为f0,f1,...,fnf_0,f_1,...,f_n，设P(x)为f(x)P(x)为f(x)在区间[a,b][a,b]上的具有一阶导数的插值函数（1）若要求P(x)P(x)在[a,b][a,b]上具有一阶导数（一阶光滑度） P(xi)=f(xi)=fiP′(xi)=f′(

2017-05-03 11:41:16 41395 4

原创 hadoop集成RHive

注：集群中的每个节点都需要安装将相关tar包和rpm包拷贝至/usr/R3.2/cd /usr/R3.2tar zxvf R-3.2.0.tar.gzRpm包更新rpm -Uvh libgcc-4.4.7-17.el6.x86_64.rpm rpm -Uvh libgomp-4.4.7-17.el6.x86_64.rpmrpm -Uvh mpfr-2.4.1-6.el6.x86_64.r

2017-05-03 09:56:54 440

原创牛顿插值法

差商差商的定义：函数f(x)f(x)在两个互异点xi,xjx_i,x_j处的一阶差商定义为： f[xi,xj]=f(xi)−f(xj)xi−xj(i≠j,xi≠xj)f[x_i,x_j]=\frac{f(x_i)-f(x_j)}{x_i-x_j} (i\ne j,x_i\ne x_j) 2阶差商： f[xi,xj,xk]=f[xi,xj]−f[xj,xk]xi−xk(i≠k)f[x_i,x

2017-05-03 09:48:18 42531

原创拉格朗日插值法

线性插值法线性插值法是指使用链接两个已知量的直线来确定在这两个已知量之间的一个未知量的值的方法。假设已知坐标(x0,y0)(x_0,y_0)与(x1,y1)(x_1,y_1)，要得到[x0,x1][x_0,x_1]区间内某一位置xx在直线上的值，根据图中所示，得到两点式直线方程： y−y0y1−y0=x−x0x1−x0y=y0+y1−y0x1−x0(x−x0)\frac{y-y_0}{y_1-

2017-05-03 08:45:07 5156

原创 RHive基础函数

加载RHivelibrary(RHive)在加载之前，首先要配置HADOOP_HOME和HIVE_HOME环境变量。也可临时设置环境变量：Sys.setenv(HIVE_HOME=”/service/hive-0.7.1”)Sys.setenv(HADOOP_HOME=”/service/hadoop-0.20.203.0”)library(RHive)rhive.init环境变量配置后自

2017-04-28 10:36:05 1290

原创 PCA原理及其R实现

主成分分析法主成分分析也称主分量分析，是揭示大样本、多变量数据或样本之间内在关系的一种方法，旨在利用降维的思想，把多指标转化为少数几个综合指标，降低观测空间的维数，以获取最主要的信息。在统计学中，主成分分析（principal components analysis, PCA）是一种简化数据集的技术。它是一个线性变换。这个变换把数据变换到一个新的坐标系统中，使得任何数据投影的第一大方差在第一个坐

2017-04-18 11:19:40 6436

原创线性支持向量机

支持向量机可以分为：线性可分支持向量机，线性支持向量机和非线性支持向量机，本次内容只讲述线性可分支持向量机和线性支持向量机。支持持向量机是一种强大的分类学习算法，即可以解决二分类也可以解决多分类问题，本次只讲述二分类的问题。线性可分支持向量机线性可分支持向量机是要学习一个超平面，而这个超平面能把正例和负例完全分开，但是这样的超平面可能有无数多个，线性可分支持向量机利用间隔最大化求分离超平面

2017-04-16 14:37:30 6184

原创 data.table简介

data.table是一个十分有效的数据处理包，它是data.frame的一个扩展，能够快速的对数据进行分片，分组，聚合等操作，比data.frame快很多。在数据处理方面，据实验结果表明，对于2G的数据，tapply耗时16秒，而data.table耗时1.6秒，快了10倍，官方还介绍说，对于100G的数据，它还能运行很好。下面介绍几个主要用到的函数：fread和read.table相似，但是

2017-04-11 14:01:29 899

翻译 9. 类别不平衡的二次抽样（The caret package）

1. 简介(The caret package ) 2. 可视化(The caret package) 3. 预处理(The caret package) 4. 数据分割（The caret package） 5. 模型训练和调参（The caret package） 6. 可用模型(The caret package ) 7. train的模型标签 8. 随机超参搜索（The

2017-04-10 14:56:25 3419

翻译 8. 随机超参搜索（The caret package）

1. 简介(The caret package ) 2. 可视化(The caret package) 3. 预处理(The caret package) 4. 数据分割（The caret package） 5. 模型训练和调参（The caret package） 6. 可用模型(The caret package ) 7. train的模型标签8. 随机超参搜索在train中优

2017-04-09 11:10:00 4440

原创 XGBoost算法原理及其实现

目标函数Obj(θ)=L(θ)+Ω(θ)Obj(\theta)=L(\theta)+\Omega(\theta) 其中，L(θ)L(\theta)表示模型拟合训练数据的程度，Ω(θ)\Omega(\theta)是正则化项，用来表示模型的复杂程度。一般，训练集的损失函数记为：L=Σni=1l(yi,yi^)L=\Sigma_{i=1}^nl(y_i,\hat{y_i}) - 平方损失函数：l(

2017-04-08 14:46:17 3783 3

原创《人民的名义》评论分析

近日，反腐大剧《人民的名义》讲述了反腐天团与位高权重的贪腐分子之间斗智斗勇的故事。一经播出，响应非常强烈，在此，对与《人民的名义》网友的评论做一分析。（《人民的名义》豆瓣评论链接）此次分析的主要工具为R，有两个主要的包要用到，一个是Rwordseg，这个主要是做中文分词的，另一个是tm包，是一个文本处理的框架，但是tm包有一个缺点，就是对中文支持不太好，会经常出现乱码的现象。然而现在有一个非常好的包

2017-04-04 13:45:30 5507

原创 AdaBoost算法

基本常用的几种提升方法而本次所说的就为AdaBoost方法。AdaBoost方法基本思想AdaBoost方法是一种常用的统计学习方法，在分类问题中，它通过改变训练样本权重，学习多个分类器，并将这些分类器进行线性组合，以提高分类性能。实际上，这就是“三个臭皮匠顶个诸葛亮”的道理。 AdaBoost算法对于提升方法，主要有两个问题：一是在每一轮如何改变训练数据的权值或概率分布；而是如何将弱分类

2017-04-04 13:16:34 670

原创离群点检验方法

离群点离群点(outlier)是一个数据对象，它显著不同于其他数据对象，好像它是被不同的机制产生一样。离群点检验就是找出其行为很不同于预期对象的过程。应用：信用卡欺诈离群点类型离群点类型：全局离群点给定数据集中，如果它显著偏离数据集中的其余对象，则成为全局离群点。情景离群点在给定数据集中，如果关于对象的特定情境，它显著偏离其他对象，则称为情景离群点。集体离群点在给定数据集中，如果这些对象

2017-03-30 14:24:13 22725 1

big data(大数据）

OpenCV_with_Python_By_Example

Data Structures and Algorithms with Python

Likelihood Bayesian and MCMC Methods in Quantitative Genetics

Data Mining. Practical Machine Learning Tools and Techniques

c语言控制台输出中文乱码问题

非法类型开始与标识符