自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(39)
  • 资源 (3)
  • 问答 (1)
  • 收藏
  • 关注

转载 压力测试工具siege的用法

压力测试工具siege的用法Siege是Linux下的一个web系统的压力测试工具,支持多链接,支持get和post请求,可以对web系统进行多并发下持续请求的压力测试。安装 Siege01020304#wgethttp://www.joedog.org/pub/siege/siege-latest.t

2017-01-03 10:42:02 2564

转载 【卷积神经网络-进化史】从LeNet到AlexNet

转自:【卷积神经网络-进化史】从LeNet到AlexNet【卷积神经网络-进化史】从LeNet到AlexNet本系列博客是对刘昕博士的《CNN的近期进展与实用技巧》的一个扩充性资料。主要讨论CNN的发展,并且引用刘昕博士的思路,对CNN的发展作一个更加详细的介绍,将按下图的CNN发展史进行描述:上图所示是刘昕博士总结的CNN结构演化的历史

2016-12-08 16:36:19 1542

转载 linux 环境变量设置(临时 + 永久)

一、环境变量环境变量是具有特殊名字的一个特定对象,包含了一个或多个应用程序运行所需的信息。(例如PATH,可执行程序的搜索路径,当要求系统运行一个程序,而没告诉系统它的具体路径时,系统就要在PTAH值的路径中寻找此程序,找到去执行)环境变量不仅有PATH,系统的环境变量还有:C_INCLUDE_PATH 头文件的搜索路径LIBRARY_PATH静态库搜索路径(编译时包含)

2016-11-29 09:18:24 3163

转载 gtest install

转载:  http://blog.csdn.net/cywosp/article/details/23684523gtest测试框架是google开源的用于在不同平台上(Linux,Mac OS X,Windows,Cygwin,Windows CE和Symbian)为编写C++测试用例的项目。它是基于xUnit架构的测试框架,支持自动发现测试,丰富的断言集, 用户定义的断言,deat

2016-11-28 20:24:01 620

转载 linux(ubuntu)下的caffe编译安装

0.关于caffe(by@寒小阳)caffe是深度学习在图像领域广泛使用的框架,其model zoo有大量的预训练好的模型提供使用。图像相关应用会大量使用到caffe。墙裂建议大家使用linux系统,原因如下。linux系统(大部分公司为CentOS或者Ubuntu),才是实际开发中用到的系统,提前熟悉一下命令行,对于实际应用和开发都很有必要。相对于Windows而言,li

2016-11-23 22:09:20 3764

原创 PCA

注:本文中所有公式和思路来自于邹博先生的《机器学习升级版》,我只是为了加深记忆和理解写的本文。PCA往往应用在去噪、降维方面,在数据规模很大的时候,往往问题的复杂性就提高了,我们可以考虑将多个特征综合为少数几个代表性特征:即能够代表原始特征的绝大多数信息,组合后的特征又互相不相关,降低相关性,那么就是可以认为这些特征是主成分。对于n个特征的m个样本,将每个样本写成行向量,得

2016-11-18 16:53:25 581

原创 推荐系统的粗浅认识

注:本文中所有公式和思路来自于邹博先生的《机器学习升级版》,我只是为了加深记忆和理解写的本文。说到推荐系统,可以毫不夸张的说,基本每个使用互联网的人多少都见到过,从购物网站到社区,可谓无孔不入啊。既然是推荐系统,那么它是凭什么把某一物品、文章等推荐给你的呢?说到这,就必须的谈到一个问题:距离的度量,因为只有找到跟用户喜好相似的才能推荐嘛。距离度量的方式有很多种,在我的一篇文

2016-11-18 12:56:38 701

原创 聚类之谱聚类

谱聚类是一直让我很郁闷的一个聚类方法,因为光知道做法,不知道原理,这样用起来的时候真心很虚,就是很纳闷,为啥这么做就可以呢?谱聚类是利用相似矩阵或其他派生矩阵的1结构特征,将样本划分到不相交类别中,并使类内样本相似度很高,而类别间样本相似度较低的一类技术,是一种启发式的聚类算法。现在就介绍一下谱聚类的原理吧由于实体与实体之间的相互作用,产生了大量的复杂数据集,我

2016-11-18 11:01:00 3086 1

原创 聚类之层次聚类与密度聚类

注:本文中所有公式和思路来自于邹博先生的《机器学习升级版》,我只是为了加深记忆和理解写的本文。讲密度聚类之前,想先介绍一个聚类的评价标准:轮廓系数(Silhouette)先抛出两个概念:簇内不相似度:计算样本i到同簇其他样本的平均距离ai,ai越小,说明i越应该被分到该类中,那么ai称为i的簇内不相似度计算簇内所有的样本的ai的均值叫簇C的簇不相似度。簇间不相似度:计算

2016-11-17 17:32:54 4299 1

原创 聚类之K-means

注:本文中所有公式和思路来自于邹博先生的《机器学习升级版》,我只是为了加深记忆和理解写的本文。聚类是典型的无监督学习,聚类本质就是对大量的未知标记的数据集,按照数据内在的相似性将数据集划分为多个类别,使类别内的数据相似性较大,而类别间的相似度较小。本文将会介绍K-means算法以及改进。那么我们怎么来衡量数据见的相似度呢?闵可夫斯基距离Minkows

2016-11-17 15:57:02 4851

原创 SVM-支持向量机

注:本文中所有公式和思路来自于邹博先生的《机器学习升级版》,我只是为了加深记忆和理解写的本文。我相信搞机器学习的同学应该没有人没听过SVM,但是能清清楚楚的把SVM说明白我想还是会有一点点小难度的,今天我也尝试着把这块介绍一下。SVM可以分为三种:线性可分支持向量机:硬间隔最大化 hard margin maximitation、硬间隔支持向量机线性支持向量机:软间

2016-11-17 07:38:16 2206

原创 Bagging和随机森林

注:本文中所有公式和思路来自于邹博先生的《机器学习升级版》,我只是为了加深记忆和理解写的本文。本文其实是接着上一篇文章决策树来说的,将会谈到两个机器学习算法:Bagging和随机森林其实Bagging和随机森林的思想都是可以普适性的用在其他的分类器上的,思想其实都是可以通用的,只不过有的合适有的不合适而已,决策树就是一种比较合适用Bagging和随机森林来提升的分类器之一。

2016-11-16 19:35:42 3950

原创 决策树

注:本文中所有公式和思路来自于邹博先生的《机器学习升级版》,我只是为了加深记忆和理解写的本文。树是一种极其重要的数据结构,像二叉树、红黑树等等,本要介绍的这种树是机器学习中的一种树,用来做分类或者回归的决策树。上图就是两颗决策树,其中的每个内部结点表示在一个属性上的测试,每个分支代表一个测试输出,每个叶节点代表着一种类别。决策树是以实例为基础的归纳学习,决策树学

2016-11-16 16:48:40 4011

原创 ICA

注:本文中所有公式和思路来自于邹博先生的《机器学习升级版》,我只是为了加深记忆和理解写的本文。我们首先说说ICA一般会应用图像降噪、人脸识别、遥感图像分类、去眼电、脑电图等方面,凡是带有隐变量的问题,都是可以尝试使用ICA来解决的。我们直接上一个盲源分离问题来说明这个ICA:假设现在有一n个人同时说话,经过了m个时刻,我们记录下信号源:如果按照时间来标记,我

2016-11-16 10:16:38 2580

原创 最大熵模型

注:本文中所有公式和思路来自于邹博先生的《机器学习升级版》,我只是为了加深记忆和理解写的本文。最大熵模型可能好多朋友听过但是没有真正的看见过他的实际应用,其实最大熵模型和Logistic回归、Softmax回归是属于广义上的同种模型,一会我们推导就可以得出这个结论,另外最大熵模型和最大似然估计也是存在着有趣的联系,我们一步步来看。说到最大熵模型,首先就得说说什么是熵,说到熵

2016-11-16 07:47:04 1771

原创 拟牛顿法

注:本文中所有公式和思路来自于邹博先生的《机器学习升级版》,我只是为了加深记忆和理解写的本文。上一篇文章中,介绍了沿着梯度下降的方法,其实我们不一定非要沿着梯度下降的。我们首先做个思考,我们都知道二阶导数反映了函数的凸凹性,二阶导数反映了一阶导数变化的大小,那么在搜索中我们可以考虑使用二阶导来进行修正:我们可以将f(x)在xk处Taylor展开:扔掉

2016-11-15 16:37:43 731

原创 梯度下降算法

注:本文中所有公式和思路来自于邹博先生的《机器学习升级版》,我只是为了加深记忆和理解写的本文。梯度下降算法我个人认为是极其重要的的一种参数优化手段,因为很常用,也容易理解,不多废话,直接步入主题。我们在线性回归中,优化参数θ的时候,先是对目标函数求导来计算梯度:然后我们沿着梯度的方向下降(上升):走到这一步似乎问题已经完全解决了,但是学习率α怎么确定

2016-11-15 13:55:55 1138

原创 Softmax回归

注:本文中所有公式和思路来自于Andrew NG先生的《cs229-notes1》,我只是为了加深记忆和理解写的本文。本来线性回归不打算说Softmax回归,因为套用Logistic回归的那一套思路基本没有任何难度,昨晚翻了翻Andrew NG的machine learning的讲义,觉得说得挺实在也挺简单,原版为英文版,如果大家看起来不方便,这里不妨和大家分享一下。Log

2016-11-15 09:08:15 408

原创 Logistic回归

注:本文中所有公式和思路来自于邹博先生的《机器学习升级版》,我只是为了加深记忆和理解写的本文。在上一篇文章中介绍了线性回归,当然了,不难看得出线性回归的标记y是连续的,所以是比较适合做回归,但是对于分类问题的话不是很合适,以前我也有个误区,一直以为回归是样本的回归,后来才明白,其实回归是只参数的回归,如果各位也有这个误区,一定要查阅资料搞清楚这一点。分类的问题y是离散的,也

2016-11-14 21:40:23 1329

原创 线性回归

注:本文中所有公式和思路来自于邹博先生的《机器学习升级版》,我只是为了加深记忆和理解写的本文。本文将跟大家介绍一下线性回归,直接步入主题。现在我们有一些关于房价的数据,根据房屋得大小居室来预测价钱:那么我们可以将第一个特征Living area看作x1,可以讲第二个特征bedrooms看作x2,Price为h(x),我们可以公式化得写成:其中讲x0设

2016-11-14 19:59:12 1103

原创 CRF-条件随机场

注:本文中所有公式和思路来自于邹博先生的《机器学习升级版》,我只是为了加深记忆和理解写的本文。这次要分享的是模型是条件随机场模型,听起来就是不是十分的容易,不过也确实是这样子的,学习条件随机场之前个人觉得最好先学习HMM模型,因为条件随机场和HMM有很多共同的地方,比方说都是概率图模型、最基本的三个问题也是一模一样的(概率计算、学习问题、预测问题)。这里先给出一个条件随机场

2016-11-14 07:56:29 2638

原创 HMM之Viterbi算法

注:本文中所有公式和思路来自于邹博先生的《机器学习升级版》,我只是为了加深记忆和理解写的本文。我们在前边简单介绍过一个预测的近似方法,就是在每个时刻选择出最有可能出现的状态,从而得到一个状态序列:我们是这么计算的,处于时刻t的状态为qi的概率为:当然我们已经将这种方案否定了,因为这种情况在实际应用中很可能会不存在,所以我们要是要使用动态规划中的一种算法Viter

2016-11-10 14:39:08 2714

原创 HMM之Baum-Welch算法

注:本文中所有公式和思路来自于邹博先生的《机器学习升级版》,我只是为了加深记忆和理解写的本文。前面介绍过了HHM模型结构和HMM基本问题中的概率计算问题,本文介绍HMM基本问题中的参数学习问题。如果训练数据包括观测序列和状态序列,则HMM的学习非常简单,是监督学习,如果只有观测序列的话,那么HMM的学习是需要使用EM算法的,是非监督学习。监督学习:根

2016-11-10 13:24:49 6455

原创 HMM之前向后向算法

注:本文中所有公式和思路来自于邹博先生的《机器学习升级版》,我只是为了加深记忆和理解写的本文。前文已经详细介绍了HMM模型的结构、参数等等,本文将介绍HMM的三个基本问题中的第一个:概率计算问题在说前向后向算法之前我们需要先讲一下概率计算的暴力求解是怎么做的(不会白讲的,后边会用到)暴力求解按照概率公式,列举所有可能的长度为T的状态序列I = {i1

2016-11-10 10:40:28 4603 1

原创 HMM之模型详解

注:本文中所有公式和思路来自于邹博先生的《机器学习升级版》,我只是为了加深记忆和理解写的本文。从本文到后边3篇文章都会介绍HMM(隐马尔科夫模型),也就是好多80后戏称的“韩梅梅”模型,HMM模型我们可以下面的图描述一下:HMM模型是关于时序的模型,描述由一个隐藏的马尔科夫链生成不可观测的状态随机序列,再由各个状态生成观测序列的过程。在上图中,z行就是不可观测的状态序列

2016-11-10 08:54:26 2520

原创 变分算法-应用

注:本文中所有公式和思路来自于邹博先生的《机器学习升级版》,我只是为了加深记忆和理解写的本文。上一篇文章算是比较详细的介绍了变分算法,本篇文章将会介绍一下一些变分框架在其他模型上的应用。变分贝叶斯:变分不光可以推测隐变量,还可以估计参数本身,我们可以使用平均场方法,将后验概率写成参数各自分布的乘积,既得到变分贝叶斯(Variational Bayesian, VB)

2016-11-09 12:59:39 2773

原创 变分算法

注:本文中所有公式和思路来自于邹博先生的《机器学习升级版》,我只是为了加深记忆和理解写的本文。本文介绍的变分算法是机器学习中的参数估计算法,跟数学中的变分法是有一些不一样的。在搜索引擎中搜索变分算法一般都是数学中的变分法,机器学习的好像还真的很少。变分算法我觉得是机器学习算法中比较难的一个了,因为推导有很多,并且有一些想法是不太直观上被轻易接受或者说理解的,今天斗胆说一说。

2016-11-09 08:56:27 8775 1

原创 采样之Gibbs算法

注:本文中所有公式和思路来自于邹博先生的《机器学习升级版》,我只是为了加深记忆和理解写的本文。

2016-11-08 08:18:01 2941

原创 采样之MCMC

注:本文中所有公式和思路来自于邹博先生的《机器学习升级版》,我只是为了加深记忆和理解写的本文。马尔科夫模型说到MCMC(Markov Chain Monte Carlo ),就必须要提一下MC(Markov Chain)模型,我们可以这么描述MC模型:描述:考虑某随机过程Π,它有n个状态,记第t时刻处于第i状态,它在t+1时刻的状态位于状态j的概率为P(i, j) = P(j

2016-11-07 21:38:42 3402

原创 采样之Metropolis Hastings算法

注:本文中所有公式和思路来自于邹博先生的《机器学习升级版》,我只是为了加深记忆和理解写的本文。Metropolis Hastings算法:假定t时刻Xt = xt,采取如下策略采样Xt +1在给定xt的条件分布g(x | xt)中采样一个值x*计算M-H率:则t+1时刻X的值Xt +1:最终得到的序列收敛于f(x)。说明:其中g(x)是我

2016-11-07 16:47:21 2221 1

原创 采样之拒绝采样

注:本文中所有公式和思路来自于邹博先生的《机器学习升级版》,我只是为了加深记忆和理解写的本文。第一次接触到采样这个词的时候我感觉别扭,因为觉得不是有现成的样本数据么,直接处理后喂给模型不就行了么干嘛要多此一举呢?其实我们可以这样来理解采样:采样时前提是我们已经确定一个系统(概率分布),但是不知道满足该分布背后的参数,然后我们根据这个概率分布从所有的样本中采样出n个样本,那么这n

2016-11-07 11:06:36 2525

原创 LDA-隐狄利克雷分布-主题模型

注:本文中所有公式和思路来自于邹博先生的《机器学习升级版》,我只是为了加深记忆和理解写的本文。

2016-11-04 10:24:03 8658 1

原创 概率图模型之贝叶斯网络

注:本文中所有公式和思路来自于邹博先生的《机器学习升级版》,我只是为了加深记忆和理解写的本文。概率图模型分为贝叶斯网络和马尔科夫网络,贝叶斯网络是有向图模型,马尔科夫网络是无向图模型(顺序演变),贝叶斯网络这一块知识我个人是学习了好多遍,看完之后虽说是明白但是却觉得很虚,我们耳熟能详的HMM、LDA都属于贝叶斯网络(有向图模型),条件随机场是马尔科夫网络(无向图模型)中的算法,后续也会

2016-11-04 08:37:37 10910

原创 朴素贝叶斯

注:本文中所有公式和思路来自于李航博士的《统计学习方法》一书,我只是为了加深记忆和理解写的本文。朴素贝叶斯(naive bayes)是基于贝叶斯定理和特征条件独立假设的分类器,对于给定的训练数据集,首先基于特征条件独立假设学习输入\输出的联合概率分布;然后基于此模型,输入x,利用贝叶斯定理求出最大后验概率y。朴素贝叶斯这个名字乍一看感觉蛮奇怪的,何为“朴素”呢?因为朴素贝叶

2016-11-03 14:07:46 1342

原创 EM算法---基于隐变量的参数估计

注:本文中所有公式和思路来自于李航博士的《统计学习方法》一书,我只是为了加深记忆和理解写的本文。】EM算法算是机器学习中有些难度的算法之一,也是非常重要的算法,曾经被誉为10大数据挖掘算法之一,从标题可以看出,EM专治带有隐变量的参数估计,我们熟悉的MLE(最大似然估计)一般会用于不含有隐变量的参数估计,应用场景不同。

2016-11-03 10:31:04 9099

原创 AdaBoost算法

注:本文中所有公式和思路来自于李航博士的《统计学习方法》一书,我只是为了加深记忆和理解写的本文。开场直接套用《统计学习方法》中的一段话:提升方法有两个问题需要回答:一是在每一轮的学习中如何改变样本的权值,二是如何将弱分类器组合成一个强分类器。第一个问题我的理解就是每一轮学习之后,对于误分的样本在下一轮学习中给予更高的权重,更加关注。第二个问题的答案是对于分类误差小的分类器给予更高的权值,使

2016-11-01 21:08:58 735

原创 XGBoost细谈

注:本文中所有公式和思路来自于邹博先生的《机器学习升级版》,我只是为了加深记忆和理解写的本文。XGBoost是陈天奇先生提出的一种提升方法,较GBDT不同的是,XGBoost采用了二阶导的信息,不说废话,直接介绍推导过程。我们以CART树为例:首先我们设定目标函数为:                      这其中yi为第i个样本标记值,y~(t-1)为第t-1棵树的预测

2016-11-01 16:22:40 3043

原创 GBDT-沿着梯度提升的决策树

注:本文中所有公式和思路来自于李航博士的《统计学习方法》一书,我只是为了加深记忆和理解写的本文。在上一篇文章中,介绍了基于残差的提升树,采用加法模型和前向分布算法,损失函数为平方损失,优化过程比较容易,但对于一般的损失函数,可能不会这么容易,因此提出了梯度提升的算法。利用的是最速下降法的近似方法,其关键是利用损失函数的负梯度在当前模型的值作为回归提升树中的残差近似值,拟合一棵决策树。

2016-11-01 11:17:43 803

原创 基于残差的提升树

注:本文中所有公式和思路来自于李航博士的《统计学习方法》一书,我只是为了加深记忆和理解写的本文。首先应该先介绍一下提升树,提升树模型采用了加法模型和前向分布算法,基于决策树的提升也就是提升树,也就是多个基函数累加得来,这里的基函数我们可以广泛的指代我们常用回归或者分类器而不仅仅是y=ax+b这种直观的函数,例如决策树、SVM等,因为我们给定一个样本x会输出对应的预测值y,所以可以将决策树、

2016-11-01 10:25:06 1562 1

timit语音数据集

timit语音数据集

2021-01-15

exceljar包

用于crud excel文件的第三方jar包,目前最常用的jar

2014-07-21

ssh框架整合步骤

ssh框架整合步骤讲解,很详细的一份教程文档

2014-07-21

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除