自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(54)
  • 收藏
  • 关注

转载 SVM入门(七)为何需要核函数

生存?还是毁灭?——哈姆雷特 可分?还是不可分?——支持向量机 之前一直在讨论的线性分类器,器如其名(汗,这是什么说法啊),只能对线性可分的样本做处理。如果提供的样本线性不可分,结果很简单,线性分类器的求解程序会无限循环,永远也解不出来。这必然使得它的适用范围大大缩小,而它的很多优点我们实在不原意放弃,怎么办呢?是否有某种方法,让线性不可分的数据变得线性可分呢?有!其思想说来也简单

2015-06-26 21:30:49 408

转载 SVM入门(一)至(三)

(一)SVM的八股简介支持向量机(Support Vector Machine)是Cortes和Vapnik于1995年首先提出的,它在解决小样本、非线性及高维模式识别中表现出许多特有的优势,并能够推广应用到函数拟合等其他机器学习问题中[10]。支持向量机方法是建立在统计学习理论的VC 维理论和结构风险最小原理基础上的,根据有限的样本信息在模型的复杂性(即对特定训练样本的学习精度,Accu

2015-06-26 20:51:00 450

转载 贝叶斯决策 简单实例

【此文介绍了贝叶斯公式】现在举一个例子说明怎么使用贝叶斯公式来做决策。例子:假设有100个人,每个人都有自己的生日。1年有12个月,假设这100个人的生日从1月到12月的人数的分布情况如下: 3     4     5     7    10    13    14    15    12     8     5     4那么1月到12月生人所占的比率分别为:0.0300

2015-06-26 20:39:22 870

转载 Matlab使用过程中内存不足问题的总结

做图像处理的,对matlab这工具软件一定不会陌生,他的高集成度为图像处理提供了很大的方便,但我们在使用时难免会出现内存不足的问题,2、3G的内存还不够处理一次简单图像,这确实很恐怖。但这里的警告并不是说真的物理内存用完了,一般out of memenry存在以下几种情况:1、 变量需要的存储空间超过了可用的内存空间2、 数据需要的存储空间,超过内存中最大的可用连续存储空间3 、程序和

2015-05-19 09:45:33 1258

转载 自组织映射网络和学习向量量化网络

在人的视网膜、脊髓中有一种现象,当一个神经细胞兴奋后,会对周围神经细胞产生抑制作用。极端情况下,不允许其他细胞兴奋,这就是上文提到的学习规则中的胜者为王。竞争学习算法分为3步:向量归一化输入的模式向量X和竞争层各细胞的内星权向量Wj(j-1,2,...,m)都是进行归一化。并且每次迭代都要进行归一化操作。寻找获胜神经元竞争层各细胞的内星权向量Wj(j-1,2,...,m)与输入

2015-05-18 20:44:03 1050

转载 对偶问题

线性规划中一个经典问题的描述如下:  某工厂有两种原料A、B,而且能用其生产两种产品:1、生产第一种产品需要2个A和4个B,能够获利6;2、生产第二种产品需要3个A和2个B,能够获利4;此时共有100个A和120个B,问该工厂最多获利多少?用数学表达式描述如下:已知:2×X1+3×X2≤1004×X1+2×X2≤120求:max 6×

2015-05-11 09:23:32 1205

转载 WEKA使用教程(经典教程转载)

目录 1. 简介2. 数据格式3.数据准备4. 关联规则(购物篮分析)5. 分类与回归6. 聚类分析 1. 简介 WEKA的全名是怀卡托智能分析环境(Waikato Environment for Knowledge Analysis),它的源代码可通过http://www.cs.waikato.ac.nz/ml/weka得到。同时weka也是新西兰的一种鸟名,

2015-04-29 15:57:00 425

转载 决策树学习笔记整理

本文目的最近一段时间在Coursera上学习Data Analysis,里面有个assignment涉及到了决策树,所以参考了一些决策树方面的资料,现在将学习过程的笔记整理记录于此,作为备忘。 算法原理决策树(Decision Tree)是一种简单但是广泛使用的分类器。通过训练数据构建决策树,可以高效的对未知的数据进行分类。决策数有两大优点:1)决策树模型可以读性好,具有描述性,有

2015-04-28 13:21:57 350

转载 细数二十世纪最伟大的10大算法

细数二十世纪最伟大的十大算法 译者:July   二零一一年一月十日------------------------------------参考文献:The Best of the 20th Century: Editors Name Top 10 Algorithms。By Barry A. Cipra。地址:http://www.uta.edu/faculty/rc

2015-04-10 16:36:51 364

转载 解析Monte-Carlo算法(基本原理,理论基础,应用实践)

引言      最近在和同学讨论研究Six Sigma(六西格玛)软件开发方法及CMMI相关问题时,遇到了需要使用Monte-Carlo算法模拟分布未知的多元一次概率密度分布问题。于是花了几天时间,通过查询相关文献资料,深入研究了一下Monte-Carlo算法,并以实际应用为背景进行了一些实验。      在研究和实验过程中,发现Monte-Carlo算法是一个非常有用的算法,在许多实际问

2015-04-10 12:01:44 1978

转载 随机算法之拉斯维加斯算法及蒙特卡罗算法初步

一. 特征: 确定性算法的每一个计算步骤都是确定的,而随机算法允许算法在执行过程中随机地选择下一个计算步骤。在很多情况下,当算法在执行过程中面临一个选择时,随机性选择常比最优选择省时。因此随机算法可在很大程度上降低算法度。拉斯维加斯算法不会得到不正确的解,但是有时找不到解。求得正确解的概率也依赖于算法所用的时间。蒙特卡罗算法可求问题的精确解,但这个解不一定是正确的,求得正确解的概率也依

2015-04-08 14:57:08 1438

转载 蒙特卡罗算法

蒙特卡罗算法并不是一种算法的名称,而是对一类随机算法的特性的概括。媒体说“蒙特卡罗算法打败武宫正树”,这个说法就好比说“我被一只脊椎动物咬了”,是比较火星的。实际上是ZEN的算法具有蒙特卡罗特性,或者说它的算法属于一种蒙特卡罗算法。     那么“蒙特卡罗”是一种什么特性呢?我们知道,既然是随机算法,在采样不全时,通常不能保证找到最优解,只能说是尽量找。那么根据怎么个“尽量”法儿,我们我们

2015-04-08 14:45:31 782

转载 遗传算法入门

遗传算法 ( GA , Genetic Algorithm ) ,也称进化算法 。 遗传算法是受达尔文的进化论的启发,借鉴生物进化过程而提出的一种启发式搜索算法。因此在介绍遗传算法前有必要简单的介绍生物进化知识。  一.进化论知识   作为遗传算法生物背景的介绍,下面内容了解即可:  种群(Population):生物的进化以群体的形式进行,这样的一个群体称为种群。  个体

2015-04-08 13:21:26 293

转载 大白话解析模拟退火算法

一. 爬山算法 ( Hill Climbing )         介绍模拟退火前,先介绍爬山算法。爬山算法是一种简单的贪心搜索算法,该算法每次从当前解的临近解空间中选择一个最优解作为当前解,直到达到一个局部最优解。         爬山算法实现很简单,其主要缺点是会陷入局部最优解,而不一定能搜索到全局最优解。如图1所示:假设C点为当前解,爬山算法搜索到A点这个局部最优解就会停止搜索,因为

2015-04-08 13:06:31 306

转载 机器学习常见算法分类汇总

机器学习无疑是当前数据分析领域的一个热点内容。很多人在平时的工作中都或多或少会用到机器学习的算法。这里IT经理网为您总结一下常见的机器学习算法,以供您在工作和学习中参考。机器学习的算法很多。很多时候困惑人们都是,很多算法是一类算法,而有些算法又是从其他算法中延伸出来的。这里,我们从两个方面来给大家介绍,第一个方面是学习的方式,第二个方面是算法的类似性。学习方式根据数据类型的不同,对一个

2015-04-03 17:30:52 341

转载 【基础】常用的机器学习&数据挖掘知识点

Basis(基础):MSE(Mean Square Error 均方误差),LMS(LeastMean Square 最小均方),LSM(Least Square Methods 最小二乘法),MLE(MaximumLikelihood Estimation最大似然估计),QP(Quadratic Programming 二次规划), CP(Conditional Probability条件概

2015-04-03 17:27:26 361

转载 缺失值的处理

对于数据挖掘和分析人员来说,数据准备(DataPreparation,包括数据的抽取、清洗、转换和集成)常常占据了70%左右的工作量。而在数据准备的过程中,数据质量差又是最常见而且令人头痛的问题。本文针对缺失值和特殊值这种数据质量问题,进行了初步介绍并推荐了一些处理方法。值得注意的是,这里所说的缺失值,不仅包括数据库中的NULL值,也包括用于表示数值缺失的特殊数值(比如,在系统中用-999来表

2015-03-30 22:04:43 2155

转载 相似性度量

User CF 和 Item CF 都依赖于相似度的计算,因为只有通过衡量用户之间或物品之间的相似度,才能找到用户的“邻居”,才能完成推荐。上文简单的介绍了相似度的计算,但不完全,下面就对常用的相似度计算方法进行详细的介绍:1. 基于皮尔森相关性的相似度 —— Pearson correlation-based similarity皮尔森相关系数反应了两个变量之间的线性相关程度,它的取

2015-03-30 21:39:45 438

转载 漫谈:机器学习中距离和相似性度量方法

在机器学习和数据挖掘中,我们经常需要知道个体间差异的大小,进而评价个体的相似性和类别。最常见的是数据分析中的相关分析,数据挖掘中的分类和聚类算法,如 K 最近邻(KNN)和 K 均值(K-Means)等等。根据数据特性的不同,可以采用不同的度量方法。一般而言,定义一个距离函数 d(x,y), 需要满足下面几个准则:1) d(x,x) = 0                    // 到自己的

2015-03-30 19:37:18 336

转载 配置VIM语法高亮及自动缩进

1、配置文件的位置在目录 /etc/ 下面,有个名为vimrc的文件,这是系统中公共的vim配置文件,对所有用户都有效。而在每个用户的主目录下,都可以自己建立私有的配置文件,命名为:“.vimrc”。例如,/root目录下,通常已经存在一个.vimrc文件。如果不知道配置文件及脚本的位置,可以在vim中使用命令 :scriptnames,将显示如下路径/etc/vimrc/us

2015-03-25 12:06:39 287

转载 Unicode字符集和多字节字符集关系

Unicode字符集和多字节字符集关系在计算机中字符通常并不是保存为图像,每个字符都是使用一个编码来表示的,而每个字符究竟使用哪个编码代表,要取决于使用哪个字符集(charset)。在最初的时候,Internet上只有一种字符集——ANSI的ASCII字符集,它使用7 bits来表示一个字符,总共表示128个字符,其中包括了英文字母、数字、标点符号等常用字符。之后,又进行扩展,使用8 bi

2015-03-23 14:55:16 413

转载 LaTex初学者模板

这是LaTex初学者模板,把下面的内容拷贝到一个空白的.tex文件,然后用latex编译,再用dvi2pdf生成pdf文件,而且下面基本没一句话都有解析,值得研究.% a4paper - A4纸  11pt -字体 twoside -双面 openany -新章节可在偶数页开始\documentclass[a4paper,11pt,twoside,openany]{article}

2015-03-22 14:11:10 549

原创 LaTeX 的简单使用

\documentclass{article}     \usepackage{amsmath,amssymb}         \usepackage{latexsym}         \usepackage{CJK}           \begin{document}     \begin{CJK*}{GBK}{song}      测试一下我的数学公式\[\i

2015-03-21 17:47:23 1190

转载 机器学习&数据挖掘(常见面试之机器学习算法思想简单梳理

前言:  找工作时(IT行业),除了常见的软件开发以外,机器学习岗位也可以当作是一个选择,不少计算机方向的研究生都会接触这个,如果你的研究方向是机器学习/数据挖掘之类,且又对其非常感兴趣的话,可以考虑考虑该岗位,毕竟在机器智能没达到人类水平之前,机器学习可以作为一种重要手段,而随着科技的不断发展,相信这方面的人才需求也会越来越大。  纵观IT行业的招聘岗位,机器学习之类的岗位还是挺少的,国

2015-03-17 16:16:55 436

转载 Ansi,UTF8,Unicode,ASCII编码的区别

近日需要不同的编码,关于上述编码,一直迷迷糊糊,查了些资料,总算大致了解了,下面全是从网上搜来的:1.  ASCII和Ansi编码    字符内码(charcter code)指的是用来代表字符的内码.读者在输入和存储文档时都要使用内码,内码分为     单字节内码 -- Single-Byte character sets (SBCS),可以支持256个字符编码.     双

2015-03-14 22:58:19 342

转载 jdk环境变量配置

进行java开发,首先要安装jdk,安装了jdk后还要进行环境变量配置:1、下载jdk(http://java.sun.com/javase/downloads/index.jsp),我下载的版本是:jdk-6u14-windows-i586.exe2、安装jdk-6u14-windows-i586.exe3、配置环境变量:右击“我的电脑”-->"高级"-->"环境变量"1)在系统

2015-03-13 21:11:05 282

转载 jdk与jre的区别

很多程序员已经干了一段时间java了依然不明白jdk与jre的区别。JDK就是Java Development Kit.简单的说JDK是面向开发人员使用的SDK,它提供了Java的开发环境和运行环境。SDK是Software Development Kit 一般指软件开发包,可以包括函数库、编译程序等。JRE是Java Runtime Enviroment是指Java的运行

2015-03-13 21:06:04 237

转载 SQLSERVER 三值逻辑

三值逻辑 (3VL, Three-valued Logic) 在SQL中逻辑表达式的可能值包括TRUE、FALSE、UNKNOWN。他们被称为三值逻辑。三值逻辑是SQL所特有的。大多数语言的逻辑表达式只有TRUE或FALSE两种值。 以下内容出自CSDN feilniu  http://topic.csdn.net/u/20100826/18/7b81012a-b5c4-48b1-b5

2015-03-12 23:02:56 542

转载 P问题、NP问题、NPC问题、NP难问题的概念

你会经常看到网上出现“这怎么做,这不是NP问题吗”、“这个只有搜了,这已经被证明是NP问题了”之类的话。你要知道,大多数人此时所说的NP问题其实都是指的NPC问题。他们没有搞清楚NP问题和NPC问题的概念。NP问题并不是那种“只有搜才行”的问题,NPC问题才是。好,行了,基本上这个误解已经被澄清了。下面的内容都是在讲什么是P问题,什么是NP问题,什么是NPC问题,你如果不是很感兴趣就可以不看了。接

2015-03-12 17:54:04 686

转载 Linux下软件安装方法汇总

Linux系统中,软件通常以源代码或者预编译包的形式提供。软件源代码需要您亲自编译为二进制的机器代码才能够使用,安装比较耗时,不过您可以自行调节编译选项,决定您需要的功能或组件,或者针对您的硬件平台作出优化。预编译的软件包,通常是由软件的发布者进行编译,您只要将软件拷贝到系统中就可以了。考虑到预编译软件包的适用性,预编译软件包通常不会针对某种硬件平台优化。它所包含的功能和组件也是通用的组合

2015-03-10 21:56:29 421 1

转载 浅谈数据库连接

必须澄清,虽然文章是我总结整理的,但是很多知识的确不是我能研究分析得出来,通过听培训、看书、实践所总结得出,一方面为了给自己备用,以便以后出现问题能解决,另一方面也希望遇到相同问题的朋友能从中得到一些启示。所以文章里面的知识可能会在很多地方都出现。我们经常会遇到很多连接问题,同时程序员往往也认为连接数据库只需要简单地连接→openconnection→操作→close,但是一个简单的连接动作,

2015-03-10 09:47:45 592

转载 全零网络IP地址0.0.0.0表示意义详谈

RFC:0.0.0.0/8 - Addresses in this block refer to source hosts on "this"network. Address 0.0.0.0/32 may be used as a source address for thishost on this network; other addresses within 0.0.0.0/8

2015-03-10 09:45:43 350

转载 判别式模型与生成式模型(二)

一、引言  本材料参考Andrew Ng大神的机器学习课程 http://cs229.stanford.edu  在上一篇有监督学习回归模型中,我们利用训练集直接对条件概率p(y|x;θ)建模,例如logistic回归就利用hθ(x) = g(θTx)对p(y|x;θ)建模(其中g(z)是sigmoid函数)。假设现在有一个分类问题,要根据一些动物的特征来区分大象(y = 1)和狗(y =

2015-01-29 22:27:14 351

转载 判别式模型与生成式模型(一)

判别式模型与生成式模型的区别产生式模型(Generative Model)与判别式模型(Discrimitive Model)是分类器常遇到的概念,它们的区别在于:对于输入x,类别标签y:产生式模型估计它们的联合概率分布P(x,y)判别式模型估计条件概率分布P(y|x)产生式模型可以根据贝叶斯公式得到判别式模型,但反过来不行。Andrew Ng在NIPS2001

2015-01-29 20:47:15 345

转载 Deep Learning(深度学习)学习笔记整理系列之(八)

接上 十、总结与展望1)Deep learning总结      深度学习是关于自动学习要建模的数据的潜在(隐含)分布的多层(复杂)表达的算法。换句话来说,深度学习算法自动的提取分类需要的低层次或者高层次特征。高层次特征,一是指该特征可以分级(层次)地依赖其他特征,例如:对于机器视觉,深度学习算法从原始图像去学习得到它的一个低层次表达,例如边缘检测器,小波滤波器等,然后在这些低层次

2015-01-26 21:08:35 540

转载 Deep Learning(深度学习)学习笔记整理系列之(七)

接上 9.5、Convolutional Neural Networks卷积神经网络       卷积神经网络是人工神经网络的一种,已成为当前语音分析和图像识别领域的研究热点。它的权值共享网络结构使之更类似于生物神经网络,降低了网络模型的复杂度,减少了权值的数量。该优点在网络的输入是多维图像时表现的更为明显,使图像可以直接作为网络的输入,避免了传统识别算法中复杂的特征提取和数据重建过程

2015-01-26 21:07:21 424

转载 Deep Learning(深度学习)学习笔记整理系列之(六)

接上 注:下面的两个Deep Learning方法说明需要完善,但为了保证文章的连续性和完整性,先贴一些上来,后面再修改好了。9.3、Restricted Boltzmann Machine (RBM)限制波尔兹曼机       假设有一个二部图,每一层的节点之间没有链接,一层是可视层,即输入数据层(v),一层是隐藏层(h),如果假设所有的节点都是随机二值变量节点(只能取0

2015-01-26 21:06:50 445

转载 Deep Learning(深度学习)学习笔记整理系列之(四)

接上 九、Deep Learning的常用模型或者方法9.1、AutoEncoder自动编码器        Deep Learning最简单的一种方法是利用人工神经网络的特点,人工神经网络(ANN)本身就是具有层次结构的系统,如果给定一个神经网络,我们假设其输出与输入是相同的,然后训练调整其参数,得到每一层中的权重。自然地,我们就得到了输入I的几种不同表示(每一层代表一种表示),

2015-01-26 21:06:29 421

转载 Deep Learning(深度学习)学习笔记整理系列之(五)

接上 9.2、Sparse Coding稀疏编码       如果我们把输出必须和输入相等的限制放松,同时利用线性代数中基的概念,即O = a1*Φ1 + a2*Φ2+….+ an*Φn, Φi是基,ai是系数,我们可以得到这样一个优化问题:Min |I – O|,其中I表示输入,O表示输出。       通过求解这个最优化式子,我们可以求得系数ai和基Φi,这些系数和基就是输

2015-01-26 21:06:23 317

转载 Deep Learning(深度学习)学习笔记整理系列之(三)

接上        好了,到了这一步,终于可以聊到Deep learning了。上面我们聊到为什么会有Deep learning(让机器自动学习良好的特征,而免去人工选取过程。还有参考人的分层视觉处理系统),我们得到一个结论就是Deep learning需要多层来获得更抽象的特征表达。那么多少层才合适呢?用什么架构来建模呢?怎么进行非监督训练呢? 五、Deep Learning的基

2015-01-26 21:05:50 313

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除