hennessy_han-CSDN博客

转载 SVM入门（七）为何需要核函数

生存？还是毁灭？——哈姆雷特可分？还是不可分？——支持向量机之前一直在讨论的线性分类器,器如其名（汗，这是什么说法啊），只能对线性可分的样本做处理。如果提供的样本线性不可分，结果很简单，线性分类器的求解程序会无限循环，永远也解不出来。这必然使得它的适用范围大大缩小，而它的很多优点我们实在不原意放弃，怎么办呢？是否有某种方法，让线性不可分的数据变得线性可分呢？有！其思想说来也简单

2015-06-26 21:30:49 408

转载 SVM入门（一）至（三）

（一）SVM的八股简介支持向量机(Support Vector Machine)是Cortes和Vapnik于1995年首先提出的，它在解决小样本、非线性及高维模式识别中表现出许多特有的优势，并能够推广应用到函数拟合等其他机器学习问题中[10]。支持向量机方法是建立在统计学习理论的VC 维理论和结构风险最小原理基础上的，根据有限的样本信息在模型的复杂性（即对特定训练样本的学习精度，Accu

2015-06-26 20:51:00 450

转载贝叶斯决策简单实例

【此文介绍了贝叶斯公式】现在举一个例子说明怎么使用贝叶斯公式来做决策。例子：假设有100个人，每个人都有自己的生日。1年有12个月，假设这100个人的生日从1月到12月的人数的分布情况如下： 3 4 5 7 10 13 14 15 12 8 5 4那么1月到12月生人所占的比率分别为：0.0300

2015-06-26 20:39:22 870

转载 Matlab使用过程中内存不足问题的总结

做图像处理的，对matlab这工具软件一定不会陌生，他的高集成度为图像处理提供了很大的方便，但我们在使用时难免会出现内存不足的问题，2、3G的内存还不够处理一次简单图像，这确实很恐怖。但这里的警告并不是说真的物理内存用完了，一般out of memenry存在以下几种情况：1、变量需要的存储空间超过了可用的内存空间2、数据需要的存储空间，超过内存中最大的可用连续存储空间3 、程序和

2015-05-19 09:45:33 1258

转载自组织映射网络和学习向量量化网络

在人的视网膜、脊髓中有一种现象，当一个神经细胞兴奋后，会对周围神经细胞产生抑制作用。极端情况下，不允许其他细胞兴奋，这就是上文提到的学习规则中的胜者为王。竞争学习算法分为3步：向量归一化输入的模式向量X和竞争层各细胞的内星权向量Wj(j-1,2,...,m)都是进行归一化。并且每次迭代都要进行归一化操作。寻找获胜神经元竞争层各细胞的内星权向量Wj(j-1,2,...,m)与输入

2015-05-18 20:44:03 1050

转载对偶问题

线性规划中一个经典问题的描述如下：　　某工厂有两种原料A、B，而且能用其生产两种产品：1、生产第一种产品需要2个A和4个B，能够获利6；2、生产第二种产品需要3个A和2个B，能够获利4；此时共有100个A和120个B，问该工厂最多获利多少？用数学表达式描述如下：已知：2×X1+3×X2≤1004×X1+2×X2≤120求：max 6×

2015-05-11 09:23:32 1205

转载 WEKA使用教程(经典教程转载)

目录 1. 简介2. 数据格式3.数据准备4. 关联规则（购物篮分析）5. 分类与回归6. 聚类分析 1. 简介 WEKA的全名是怀卡托智能分析环境（Waikato Environment for Knowledge Analysis），它的源代码可通过http://www.cs.waikato.ac.nz/ml/weka得到。同时weka也是新西兰的一种鸟名，

2015-04-29 15:57:00 425

转载决策树学习笔记整理

本文目的最近一段时间在Coursera上学习Data Analysis，里面有个assignment涉及到了决策树，所以参考了一些决策树方面的资料，现在将学习过程的笔记整理记录于此，作为备忘。算法原理决策树（Decision Tree）是一种简单但是广泛使用的分类器。通过训练数据构建决策树，可以高效的对未知的数据进行分类。决策数有两大优点：1）决策树模型可以读性好，具有描述性，有

2015-04-28 13:21:57 350

转载细数二十世纪最伟大的10大算法

细数二十世纪最伟大的十大算法译者：July 二零一一年一月十日------------------------------------参考文献：The Best of the 20th Century: Editors Name Top 10 Algorithms。By Barry A. Cipra。地址：http://www.uta.edu/faculty/rc

2015-04-10 16:36:51 364

转载解析Monte-Carlo算法(基本原理,理论基础,应用实践)

引言最近在和同学讨论研究Six Sigma（六西格玛）软件开发方法及CMMI相关问题时，遇到了需要使用Monte-Carlo算法模拟分布未知的多元一次概率密度分布问题。于是花了几天时间，通过查询相关文献资料，深入研究了一下Monte-Carlo算法，并以实际应用为背景进行了一些实验。在研究和实验过程中，发现Monte-Carlo算法是一个非常有用的算法，在许多实际问

2015-04-10 12:01:44 1978

转载随机算法之拉斯维加斯算法及蒙特卡罗算法初步

一. 特征：确定性算法的每一个计算步骤都是确定的，而随机算法允许算法在执行过程中随机地选择下一个计算步骤。在很多情况下，当算法在执行过程中面临一个选择时，随机性选择常比最优选择省时。因此随机算法可在很大程度上降低算法度。拉斯维加斯算法不会得到不正确的解，但是有时找不到解。求得正确解的概率也依赖于算法所用的时间。蒙特卡罗算法可求问题的精确解，但这个解不一定是正确的，求得正确解的概率也依

2015-04-08 14:57:08 1438

转载蒙特卡罗算法

蒙特卡罗算法并不是一种算法的名称，而是对一类随机算法的特性的概括。媒体说“蒙特卡罗算法打败武宫正树”，这个说法就好比说“我被一只脊椎动物咬了”，是比较火星的。实际上是ZEN的算法具有蒙特卡罗特性，或者说它的算法属于一种蒙特卡罗算法。那么“蒙特卡罗”是一种什么特性呢？我们知道，既然是随机算法，在采样不全时，通常不能保证找到最优解，只能说是尽量找。那么根据怎么个“尽量”法儿，我们我们

2015-04-08 14:45:31 782

转载遗传算法入门

遗传算法 ( GA , Genetic Algorithm ) ，也称进化算法。遗传算法是受达尔文的进化论的启发，借鉴生物进化过程而提出的一种启发式搜索算法。因此在介绍遗传算法前有必要简单的介绍生物进化知识。一.进化论知识　　作为遗传算法生物背景的介绍，下面内容了解即可：　　种群(Population)：生物的进化以群体的形式进行，这样的一个群体称为种群。　　个体

2015-04-08 13:21:26 293

转载大白话解析模拟退火算法

一. 爬山算法 ( Hill Climbing ) 介绍模拟退火前，先介绍爬山算法。爬山算法是一种简单的贪心搜索算法，该算法每次从当前解的临近解空间中选择一个最优解作为当前解，直到达到一个局部最优解。爬山算法实现很简单，其主要缺点是会陷入局部最优解，而不一定能搜索到全局最优解。如图1所示：假设C点为当前解，爬山算法搜索到A点这个局部最优解就会停止搜索，因为

2015-04-08 13:06:31 306

转载机器学习常见算法分类汇总

机器学习无疑是当前数据分析领域的一个热点内容。很多人在平时的工作中都或多或少会用到机器学习的算法。这里IT经理网为您总结一下常见的机器学习算法，以供您在工作和学习中参考。机器学习的算法很多。很多时候困惑人们都是，很多算法是一类算法，而有些算法又是从其他算法中延伸出来的。这里，我们从两个方面来给大家介绍，第一个方面是学习的方式，第二个方面是算法的类似性。学习方式根据数据类型的不同，对一个

2015-04-03 17:30:52 341

转载【基础】常用的机器学习&数据挖掘知识点

Basis(基础)：MSE(Mean Square Error 均方误差)，LMS(LeastMean Square 最小均方)，LSM(Least Square Methods 最小二乘法)，MLE(MaximumLikelihood Estimation最大似然估计)，QP(Quadratic Programming 二次规划)， CP(Conditional Probability条件概

2015-04-03 17:27:26 361

转载缺失值的处理

对于数据挖掘和分析人员来说，数据准备（DataPreparation，包括数据的抽取、清洗、转换和集成）常常占据了70%左右的工作量。而在数据准备的过程中，数据质量差又是最常见而且令人头痛的问题。本文针对缺失值和特殊值这种数据质量问题，进行了初步介绍并推荐了一些处理方法。值得注意的是，这里所说的缺失值，不仅包括数据库中的NULL值，也包括用于表示数值缺失的特殊数值（比如，在系统中用-999来表

2015-03-30 22:04:43 2155

转载相似性度量

User CF 和 Item CF 都依赖于相似度的计算，因为只有通过衡量用户之间或物品之间的相似度，才能找到用户的“邻居”，才能完成推荐。上文简单的介绍了相似度的计算，但不完全，下面就对常用的相似度计算方法进行详细的介绍：1. 基于皮尔森相关性的相似度 —— Pearson correlation-based similarity皮尔森相关系数反应了两个变量之间的线性相关程度，它的取

2015-03-30 21:39:45 438

转载漫谈：机器学习中距离和相似性度量方法

在机器学习和数据挖掘中，我们经常需要知道个体间差异的大小，进而评价个体的相似性和类别。最常见的是数据分析中的相关分析，数据挖掘中的分类和聚类算法，如 K 最近邻（KNN）和 K 均值（K-Means）等等。根据数据特性的不同，可以采用不同的度量方法。一般而言，定义一个距离函数 d(x,y), 需要满足下面几个准则：1) d(x,x) = 0 // 到自己的

2015-03-30 19:37:18 336

转载配置VIM语法高亮及自动缩进

1、配置文件的位置在目录 /etc/ 下面，有个名为vimrc的文件，这是系统中公共的vim配置文件，对所有用户都有效。而在每个用户的主目录下，都可以自己建立私有的配置文件，命名为：“.vimrc”。例如，/root目录下，通常已经存在一个.vimrc文件。如果不知道配置文件及脚本的位置，可以在vim中使用命令 :scriptnames，将显示如下路径/etc/vimrc/us

2015-03-25 12:06:39 287

转载 Unicode字符集和多字节字符集关系

Unicode字符集和多字节字符集关系在计算机中字符通常并不是保存为图像，每个字符都是使用一个编码来表示的，而每个字符究竟使用哪个编码代表，要取决于使用哪个字符集(charset)。在最初的时候，Internet上只有一种字符集——ANSI的ASCII字符集，它使用7 bits来表示一个字符，总共表示128个字符，其中包括了英文字母、数字、标点符号等常用字符。之后，又进行扩展，使用8 bi

2015-03-23 14:55:16 413

转载 LaTex初学者模板

这是LaTex初学者模板,把下面的内容拷贝到一个空白的.tex文件,然后用latex编译,再用dvi2pdf生成pdf文件,而且下面基本没一句话都有解析,值得研究.% a4paper - A4纸 11pt -字体 twoside -双面 openany -新章节可在偶数页开始\documentclass[a4paper,11pt,twoside,openany]{article}

2015-03-22 14:11:10 549

原创 LaTeX 的简单使用

\documentclass{article} \usepackage{amsmath,amssymb} \usepackage{latexsym} \usepackage{CJK} \begin{document} \begin{CJK*}{GBK}{song} 测试一下我的数学公式\[\i

2015-03-21 17:47:23 1190

转载机器学习&数据挖掘（常见面试之机器学习算法思想简单梳理

前言：　　找工作时（IT行业），除了常见的软件开发以外，机器学习岗位也可以当作是一个选择，不少计算机方向的研究生都会接触这个，如果你的研究方向是机器学习/数据挖掘之类，且又对其非常感兴趣的话，可以考虑考虑该岗位，毕竟在机器智能没达到人类水平之前，机器学习可以作为一种重要手段，而随着科技的不断发展，相信这方面的人才需求也会越来越大。　　纵观IT行业的招聘岗位，机器学习之类的岗位还是挺少的，国

2015-03-17 16:16:55 436

转载 Ansi,UTF8,Unicode,ASCII编码的区别

近日需要不同的编码，关于上述编码,一直迷迷糊糊,查了些资料,总算大致了解了,下面全是从网上搜来的：1. ASCII和Ansi编码字符内码(charcter code)指的是用来代表字符的内码.读者在输入和存储文档时都要使用内码,内码分为单字节内码 -- Single-Byte character sets (SBCS),可以支持256个字符编码. 双

2015-03-14 22:58:19 342

转载 jdk环境变量配置

进行java开发，首先要安装jdk，安装了jdk后还要进行环境变量配置：1、下载jdk（http://java.sun.com/javase/downloads/index.jsp），我下载的版本是：jdk-6u14-windows-i586.exe2、安装jdk-6u14-windows-i586.exe3、配置环境变量：右击“我的电脑”-->"高级"-->"环境变量"1）在系统

2015-03-13 21:11:05 282

转载 jdk与jre的区别

很多程序员已经干了一段时间java了依然不明白jdk与jre的区别。JDK就是Java Development Kit.简单的说JDK是面向开发人员使用的SDK，它提供了Java的开发环境和运行环境。SDK是Software Development Kit 一般指软件开发包，可以包括函数库、编译程序等。JRE是Java Runtime Enviroment是指Java的运行

2015-03-13 21:06:04 237

转载 SQLSERVER 三值逻辑

三值逻辑 (3VL, Three-valued Logic) 在SQL中逻辑表达式的可能值包括TRUE、FALSE、UNKNOWN。他们被称为三值逻辑。三值逻辑是SQL所特有的。大多数语言的逻辑表达式只有TRUE或FALSE两种值。以下内容出自CSDN feilniu http://topic.csdn.net/u/20100826/18/7b81012a-b5c4-48b1-b5

2015-03-12 23:02:56 542

你会经常看到网上出现“这怎么做，这不是NP问题吗”、“这个只有搜了，这已经被证明是NP问题了”之类的话。你要知道，大多数人此时所说的NP问题其实都是指的NPC问题。他们没有搞清楚NP问题和NPC问题的概念。NP问题并不是那种“只有搜才行”的问题，NPC问题才是。好，行了，基本上这个误解已经被澄清了。下面的内容都是在讲什么是P问题，什么是NP问题，什么是NPC问题，你如果不是很感兴趣就可以不看了。接

2015-03-12 17:54:04 686

转载 Linux下软件安装方法汇总

Linux系统中，软件通常以源代码或者预编译包的形式提供。软件源代码需要您亲自编译为二进制的机器代码才能够使用，安装比较耗时，不过您可以自行调节编译选项，决定您需要的功能或组件，或者针对您的硬件平台作出优化。预编译的软件包，通常是由软件的发布者进行编译，您只要将软件拷贝到系统中就可以了。考虑到预编译软件包的适用性，预编译软件包通常不会针对某种硬件平台优化。它所包含的功能和组件也是通用的组合

2015-03-10 21:56:29 421 1

转载浅谈数据库连接

必须澄清，虽然文章是我总结整理的，但是很多知识的确不是我能研究分析得出来，通过听培训、看书、实践所总结得出，一方面为了给自己备用，以便以后出现问题能解决，另一方面也希望遇到相同问题的朋友能从中得到一些启示。所以文章里面的知识可能会在很多地方都出现。我们经常会遇到很多连接问题，同时程序员往往也认为连接数据库只需要简单地连接→openconnection→操作→close，但是一个简单的连接动作，

2015-03-10 09:47:45 592

转载全零网络IP地址0.0.0.0表示意义详谈

RFC：0.0.0.0/8 - Addresses in this block refer to source hosts on "this"network. Address 0.0.0.0/32 may be used as a source address for thishost on this network; other addresses within 0.0.0.0/8

2015-03-10 09:45:43 350

转载判别式模型与生成式模型(二)

一、引言　　本材料参考Andrew Ng大神的机器学习课程 http://cs229.stanford.edu　　在上一篇有监督学习回归模型中，我们利用训练集直接对条件概率p(y|x;θ)建模，例如logistic回归就利用hθ(x) = g(θTx)对p(y|x;θ)建模（其中g(z)是sigmoid函数）。假设现在有一个分类问题，要根据一些动物的特征来区分大象(y = 1)和狗(y =

2015-01-29 22:27:14 351

转载判别式模型与生成式模型(一)

判别式模型与生成式模型的区别产生式模型(Generative Model)与判别式模型(Discrimitive Model)是分类器常遇到的概念，它们的区别在于：对于输入x，类别标签y：产生式模型估计它们的联合概率分布P(x,y)判别式模型估计条件概率分布P(y|x)产生式模型可以根据贝叶斯公式得到判别式模型，但反过来不行。Andrew Ng在NIPS2001

2015-01-29 20:47:15 345

转载 Deep Learning（深度学习）学习笔记整理系列之（八）

接上十、总结与展望1）Deep learning总结深度学习是关于自动学习要建模的数据的潜在（隐含）分布的多层（复杂）表达的算法。换句话来说，深度学习算法自动的提取分类需要的低层次或者高层次特征。高层次特征，一是指该特征可以分级（层次）地依赖其他特征，例如：对于机器视觉，深度学习算法从原始图像去学习得到它的一个低层次表达，例如边缘检测器，小波滤波器等，然后在这些低层次

2015-01-26 21:08:35 540

转载 Deep Learning（深度学习）学习笔记整理系列之（七）

接上 9.5、Convolutional Neural Networks卷积神经网络卷积神经网络是人工神经网络的一种，已成为当前语音分析和图像识别领域的研究热点。它的权值共享网络结构使之更类似于生物神经网络，降低了网络模型的复杂度，减少了权值的数量。该优点在网络的输入是多维图像时表现的更为明显，使图像可以直接作为网络的输入，避免了传统识别算法中复杂的特征提取和数据重建过程

2015-01-26 21:07:21 424

转载 Deep Learning（深度学习）学习笔记整理系列之（六）

接上注：下面的两个Deep Learning方法说明需要完善，但为了保证文章的连续性和完整性，先贴一些上来，后面再修改好了。9.3、Restricted Boltzmann Machine (RBM)限制波尔兹曼机假设有一个二部图，每一层的节点之间没有链接，一层是可视层，即输入数据层（v)，一层是隐藏层(h)，如果假设所有的节点都是随机二值变量节点（只能取0

2015-01-26 21:06:50 445

转载 Deep Learning（深度学习）学习笔记整理系列之（四）

接上九、Deep Learning的常用模型或者方法9.1、AutoEncoder自动编码器 Deep Learning最简单的一种方法是利用人工神经网络的特点，人工神经网络（ANN）本身就是具有层次结构的系统，如果给定一个神经网络，我们假设其输出与输入是相同的，然后训练调整其参数，得到每一层中的权重。自然地，我们就得到了输入I的几种不同表示（每一层代表一种表示），

2015-01-26 21:06:29 421

转载 Deep Learning（深度学习）学习笔记整理系列之（五）

接上 9.2、Sparse Coding稀疏编码如果我们把输出必须和输入相等的限制放松，同时利用线性代数中基的概念，即O = a1*Φ1 + a2*Φ2+….+ an*Φn， Φi是基，ai是系数，我们可以得到这样一个优化问题：Min |I – O|，其中I表示输入，O表示输出。通过求解这个最优化式子，我们可以求得系数ai和基Φi，这些系数和基就是输

2015-01-26 21:06:23 317

转载 Deep Learning（深度学习）学习笔记整理系列之（三）

接上好了，到了这一步，终于可以聊到Deep learning了。上面我们聊到为什么会有Deep learning（让机器自动学习良好的特征，而免去人工选取过程。还有参考人的分层视觉处理系统），我们得到一个结论就是Deep learning需要多层来获得更抽象的特征表达。那么多少层才合适呢？用什么架构来建模呢？怎么进行非监督训练呢？五、Deep Learning的基

2015-01-26 21:05:50 313

空空如也

空空如也