2013年07月_wbglearn

转载 IT行,建议,总结,经历收集

注: 非本人原创, 全部收集而来, 陆续收集中给IT新人的15点建议：苦逼程序员的辛酸反省与总结从1.5k到18k, 一个程序员的5年成长之路程序员的八个级别（不断更新）每个程序员都应该知道的论文和文章北京租房记

2013-07-28 22:28:21 873

前一节的回归是一种全局回归模型，它设定了一个模型，不管是线性还是非线性的模型，然后拟合数据得到参数，现实中会有些数据很复杂，肉眼几乎看不出符合那种模型，因此构建全局的模型就有点不合适。这节介绍的树回归就是为了解决这类问题，它通过构建决策节点把数据数据切分成区域，然后局部区域进行回归拟合。先来看看分类回归树吧（CART:Classification And Regression Trees）,这个模

2013-07-28 22:21:20 1398

转载浪潮之巅第一章 — 帝国的余辉（AT&T)

转自：http://www.google.com.hk/ggblog/googlechinablog/2007/07/at_2626.html 1. 百年帝国上面的图片是在九十年代拍摄的美国新泽西州弗伦翰公园 (Florham Park) 日落的照片。弗伦翰公园占地十几平方公里，大多是芳草地和森林，在森林中央，是一片中等规模的临湖的工业园——这是笔者见到的最美丽的工

2013-07-27 23:31:11 3056

转载数学之美与浪潮之巅

转载自吴军博士的网站：http://jun.wu.googlepages.com/两个非常有名系列文章：“数学之美”与“浪潮之巅”。不懂计算机的人也可以从中学到不少。Beauty of Mathematics数学之美 (Written in Chinese) I am writing a serial of essays introducin

2013-07-27 23:17:10 1898

转载【面向代码】学习 Deep Learning（二）Deep Belief Nets(DBNs) .

==========================================================================================最近一直在看Deep Learning，各类博客、论文看得不少但是说实话，这样做有些疏于实现，一来呢自己的电脑也不是很好，二来呢我目前也没能力自己去写一个toolbox只是跟着Andrew Ng的

2013-07-25 22:26:49 2079

转载【面向代码】学习 Deep Learning（一）Neural Network .

==========================================================================================最近一直在看Deep Learning，各类博客、论文看得不少但是说实话，这样做有些疏于实现，一来呢自己的电脑也不是很好，二来呢我目前也没能力自己去写一个toolbox只是跟着Andrew Ng的UFLDL

2013-07-25 22:26:07 1604

转载 VC6.0中加载库（lib、dll）文件的两种方法 .

两种方法：1、在Project->Add to Project->Files中将你的LIB文件直接加入到工程中去。2、在TOOLS->OPTIONS->Directories->Library files，加入你的LIB文件所在的目录，然后：在Project->setting->link->Object/Library Modules中加入你的LIB文件，如 "you.

2013-07-21 22:27:34 1701

转载从K近邻算法、距离度量谈到KD树、SIFT+BBF算法

从K近邻算法、距离度量谈到KD树、SIFT+BBF算法前言前两日，在微博上说：“到今天为止，我至少亏欠了3篇文章待写：1、KD树；2、神经网络；3、编程艺术第28章。你看到，blog内的文章与你于别处所见的任何都不同。于是，等啊等，等一台电脑，只好等待..”。得益于田，借了我一台电脑（借他电脑的时候，我连表示感谢，他说“能找到工作全靠你的博客，这点儿小忙还说，不地道”，有的时候，稍

2013-07-21 16:44:03 1336

原创暑假的开始2周

很开心自己可以知道csdn博客，这段时间一定在关注牛人的博客。感觉自己弱爆了……自己这段时间虽然很忙，但总是会抽点时间看csdn上的东西。觉得可以看到别人对这些问题的理解一定会对自己有所启发。我关注的只是机器学习、深度学习、语音和算法类的一些。在这海量的信息里我还是找到了一些可以帮助我的。 2周的时间，一直帮老师做事情，最近这个项目很紧，但今晚我还是下定决心不看那些代码。不知道为什么自己

2013-07-20 20:35:50 1113 1

转载从决策树学习谈到贝叶斯分类算法、EM、HMM

第一篇：从决策树学习谈到贝叶斯分类算法、EM、HMM（Machine Learning & Data Mining交流群：8986884）引言最近在面试中，除了基础 & 算法 & 项目之外，经常被问到或被要求介绍和描述下自己所知道的几种分类或聚类算法(当然，这完全不代表你将来的面试中会遇到此类问题，只是因为我的简历上写了句：熟

2013-07-20 20:24:26 2386

转载十道海量数据处理面试题与十个方法大总结

海量数据处理：十道面试题与十个海量数据处理方法总结作者：July、youwang、yanxionglu。时间：二零一一年三月二十六日本文之总结：教你如何迅速秒杀掉：99%的海量数据处理面试题。有任何问题，欢迎随时交流、指正。出处：http://blog.csdn.net/v_JULY_v。第一部分、十道海量数据处理面试题1、海量日志数据，提取出某日访问百度次

2013-07-20 20:20:32 947

转载从头到尾彻底解析Hash表算法

作者：July、wuliming、pkuoliver 出处：http://blog.csdn.net/v_JULY_v。说明：本文分为三部分内容，第一部分为一道百度面试题Top K算法的详解；第二部分为关于Hash表算法的详细阐述；第三部分为打造一个最快的Hash表算法。------------------------------------第一部分：Top K 算法详

2013-07-20 20:19:24 1064

转载机器学习理论与实战（八）回归

按照《机器学习实战》的主线，结束有监督学习中关于分类的机器学习方法，进入回归部分。所谓回归就是数据进行曲线拟合，回归一般用来做预测，涵盖线性回归（经典最小二乘法）、局部加权线性回归、岭回归和逐步线性回归。先来看下线性回归，即经典最小二乘法，说到最小二乘法就不得说下线性代数，因为一般说线性回归只通过计算一个公式就可以得到答案，如（公式一）所示：（公式一）其中X是表示样本特征组成的

2013-07-20 19:54:06 1299

转载机器学习理论与实战（七）Adaboost

Adaboost也是一种原理简单，但很实用的有监督机器学习算法，它是daptive boosting的简称。说到boosting算法，就不得提一提bagging算法，他们两个都是把一些弱分类器组合起来来进行分类的方法，统称为集成方法（ensemble method）,类似于投资，“不把鸡蛋放在一个篮子”，虽然每个弱分类器分类的不那么准确，但是如果把多个弱分类器组合起来可以得到相当不错的结果，另外要

2013-07-20 19:52:38 1253

转载机器学习理论与实战（六）支持向量机

上节基本完成了SVM的理论推倒，寻找最大化间隔的目标最终转换成求解拉格朗日乘子变量alpha的求解问题，求出了alpha即可求解出SVM的权重W，有了权重也就有了最大间隔距离，但是其实上节我们有个假设：就是训练集是线性可分的，这样求出的alpha在[0,infinite]。但是如果数据不是线性可分的呢？此时我们就要允许部分的样本可以越过分类器，这样优化的目标函数就可以不变，只要引入松弛变量即可，它

2013-07-20 19:48:42 1796

转载机器学习理论与实战（五）支持向量机

做机器学习的一定对支持向量机（support vector machine-SVM）颇为熟悉，因为在深度学习出现之前，SVM一直霸占着机器学习老大哥的位子。他的理论很优美，各种变种改进版本也很多，比如latent-SVM, structural-SVM等。这节先来看看SVM的理论吧，在（图一）中A图表示有两类的数据集，图B,C,D都提供了一个线性分类器来对数据进行分类？但是哪个效果好一些？

2013-07-20 19:46:54 1103

转载机器学习理论与实战（四）逻辑回归

从这节算是开始进入“正规”的机器学习了吧，之所以“正规”因为它开始要建立价值函数（cost function），接着优化价值函数求出权重，然后测试验证。这整套的流程是机器学习必经环节。今天要学习的话题是逻辑回归，逻辑回归也是一种有监督学习方法（supervised machine learning）。逻辑回归一般用来做预测，也可以用来做分类，预测是某个类别^.^！线性回归想比大家都不陌生了，y=k

2013-07-20 19:44:40 1301

转载机器学习理论与实战（三）朴素贝叶斯

贝叶斯决策一直很有争议，今年是贝叶斯250周年，历经沉浮，今天它的应用又开始逐渐活跃，有兴趣的可以看看斯坦福Brad Efron大师对其的反思，两篇文章：“Bayes'Theorem in the 21st Century”和“A250-YEAR ARGUMENT:BELIEF, BEHAVIOR, AND THE BOOTSTRAP”。俺就不参合这事了，下面来看看朴素贝叶斯分类器。有时我

2013-07-20 19:41:21 1158

转载机器学习理论与实战（二）决策树

决策树也是有监督机器学习方法。电影《无耻混蛋》里有一幕游戏，在德军小酒馆里有几个人在玩20问题游戏，游戏规则是一个设迷者在纸牌中抽出一个目标（可以是人，也可以是物），而猜谜者可以提问题，设迷者只能回答是或者不是，在几个问题（最多二十个问题）之后，猜谜者通过逐步缩小范围就准确的找到了答案。这就类似于决策树的工作原理。（图一）是一个判断邮件类别的工作方式，可以看出判别方法很简单，基本都是阈值判断，关

2013-07-20 19:36:06 1257

转载机器学习理论与实战（一）K近邻法

机器学习分两大类，有监督学习(supervised learning)和无监督学习(unsupervised learning)。有监督学习又可分两类：分类（classification.）和回归（regression），分类的任务就是把一个样本划为某个已知类别，每个样本的类别信息在训练时需要给定，比如人脸识别、行为识别、目标检测等都属于分类。回归的任务则是预测一个数值，比如给定房屋市场的数据（面

2013-07-20 19:29:56 1251

转载 EM算法详解

1 极大似然估计假设有如图1的X所示的抽取的n个学生某门课程的成绩，又知学生的成绩符合高斯分布f(x|μ,σ2)，求学生的成绩最符合哪种高斯分布，即μ和σ2最优值是什么？图1 学生成绩的分布欲求在抽样X时，最优的μ和σ2参数估计，虽然模型的原型已知，但不同的参数对应着不同的学生成绩分布，其中一种最简单有效的参数估计方法就是估计的参数在目前抽样的数据上表现最好，即使

2013-07-19 23:04:52 1220

转载 Shark Machine Learning Library 安装配置运行

这两天开始折腾ML的开源库，ML的开源库有很多，比如Torch,MLC,Weka(基于java),Waffles,Shark,scikit,opencv-ml，等等，综合比较了各个开源库的优劣，决定搞搞以下几个库：1. Shark，基于c++2. scikit，基于python3. weka，基于java4. opencv-ml，基于c++，图像处理中用的比较多，之前已接触过花

2013-07-19 23:03:23 1254

转载 DeepLearning（深度学习）原理与实现（五）

结构决定功能和协同处理：鲁棒有限制玻尔兹曼机(RoBM）上一篇博文中提到，GRBM训练样本越多越好，样本多蕴含的分布更具有一般性，这对其他模型也适用。但是实际样本数据中往往有大量的噪声，这或多或少的影响了GRBM的性能，工业界一般都设有清洗数据的岗位，用人脑去除噪声数据。试想：人脑为什么具有如此强大的抗噪和容错能力？其实生命科学中有一句经典的总结：结构决定功能。不同的结构

2013-07-19 22:58:52 1255

转载 DeepLearning（深度学习）原理与实现（四）

今天就来讨论下deep learning怎么来处理real valued data。对于图像来说，二值图像毕竟是少数，更多的还是实值图像。对于这样的情况，RBM已经无法很好的处理它们，因此需要改进它，对于了解计算机视觉的人而言，想必高斯混合背景模型大家已不陌生，高斯混合模型可以很好的对实值图像建模，OpenCV中早就用高斯混合背景模型来分割物体。接下来要引出的高斯有限制玻尔兹曼机（Gaussian

2013-07-19 22:50:16 1331

转载 DeepLearning（深度学习）原理与实现（三）

考虑到大家有可能对深度学习的识别有点模糊，因此决定写一个短博客，简单介绍下如何识别，结合本系列的第一篇博文提到的深度学习之所以叫深度，其中之一的原因是多层RBM模仿了人脑多层神经元对输入数据进行层层预处理(值得一提的是并不是每层都是RBM，DBN就是个例外），即深层次的数据拟合，多个RBM连接起来构成DBM（deep boltzmann machines)，每层RBM的节点数自己指定，这需要一些经

2013-07-19 22:48:58 1375

转载 DeepLearning（深度学习）原理与实现（二）

下面贴出RBM C++版本的代码，一些大牛写的，结合上篇博文来加深大家对RBM理论的理解。。。RBM类定义声明：[cpp] view plaincopyprint?class RBM { public: int N; int n_visible; int n_hidden; double **W; double *hb

2013-07-19 22:43:31 1630

转载 DeepLearning（深度学习）原理与实现（一）

本文转载：http://blog.csdn.net/cuoqu/article/details/8886971 经过三年的狂刷理论，觉得是时候停下来做些有用的东西了，因此决定开博把他们写下来，一是为了整理学过的理论，二是监督自己并和大家分享。先从DeepLearning谈起吧，因为这个有一定的实用性（大家口头传的“和钱靠的很近”)，国内各个大牛也都谈了不少，我尽量从其他方面解释一下。

2013-07-19 22:40:16 2110

转载打造Android的中文Siri语音助手(二)——添加虫洞的开放API

By 何明桂（http://blog.csdn.net/hmg25）转载请注明出处在给我们的Siri添加小I的接口之后，感觉它还是不够智能，无法像Iphone的Siri一样功能强大。可是国内我依旧没有找到一个能够强大如苹果Siri的服务器，所以只能退而求其次，我引入了”虫洞“的开放API，网站http://www.uzoo.cn/，这是一个功能很强大的接口，可以

2013-07-18 22:49:06 949

转载打造Android的中文Siri语音助手(一)——小I机器人的接口

By 何明桂（http://blog.csdn.net/hmg25）转载请注明出处Iphone4S的Siri让人眼前一亮，网上出现了无数调戏Siri的视频。真是让android用户们心痒不已。好在随后android阵营中的高手迅速反击，推出了Iris。悲剧的是Iris仅支持英文，让我们这些英语烂的无比的人调戏Iris不成，反被它给调戏了。真是郁闷的不行啊~_~所以我打算使用android

2013-07-18 00:17:48 1800

转载 14款中文分词开源软件

链接：http://www.oschina.net/project/tag/264/segment 开源中国社区‍1、IKAnalyzerIKAnalyzer是一个开源的，基于java语言开发的轻量级的中文分词工具包。从2006年12月推出1.0版开始，IKAnalyzer已经推出了3个大版本。最初，它是以开源项目Luence为应用主体的，结合词典分词和文法分析算法的中文分词

2013-07-18 00:14:28 3930

转载 DNN与微软同声传译系统背后的故事

摘要：2012年10月的天津，微软在“21世纪的计算大会”上展示了一套全自动同声传译系统。流畅的效果令其背后的关键技术DNN（深层神经网络）第一次进入了许多人的视野。本文将讲述DNN与这套同声传译系统背后的故事。2012年10月的天津，微软首席研究官Rick Rashid在“21世纪的计算大会”上公开演示了一个全自动同声传译系统，他的英文演讲被实时转换成与他的音色相近、字正腔圆的中文。流畅

2013-07-18 00:01:10 3365

转载卷积，DFT,FFT,图像FFT，FIR 和 IIR 的物理意义。 .

卷积：冲击信号会对线性系统产生冲击响应。冲击信号可分解为平移度和幅度。其对线性系统的冲击响应可以分解为点点间的经平移和缩放的各个冲击响应的累加，通过卷积的表达式表示。所谓的冲击响应，就是线性系统对任何输入信号的响应，描述这种输入输出关系的算数方法就是卷积。以上是从输入信号的角度看卷积，每个输入信号上的点都产生一个缩放和平移之后的冲击信号，然后对这些冲击信号进行累加，即卷积。

2013-07-17 23:32:42 2273

转载史上最详细最容易理解的HMM文章 .

http://www.52nlp.cn/hmm-learn-best-practices-four-hidden-markov-modelswiki上一个比较好的HMM例子分类隐马尔科夫模型　　HMM(隐马尔科夫模型)是自然语言处理中的一个基本模型，用途比较广泛，如汉语分词、词性标注及语音识别等，在NLP中占有很重要的地位。网上关于HMM的介绍讲解文档很多，我自己当时开始看的时

2013-07-17 23:18:01 4201

转载 k-d tree算法

k-d树（k-dimensional树的简称），是一种分割k维数据空间的数据结构。主要应用于多维空间关键数据的搜索（如：范围搜索和最近邻搜索）。应用背景　　SIFT算法中做特征点匹配的时候就会利用到k-d树。而特征点匹配实际上就是一个通过距离函数在高维矢量之间进行相似性检索的问题。针对如何快速而准确地找到查询点的近邻，现在提出了很多高维空间索引结构和近似查询的算法，k-d树就是

2013-07-17 16:25:34 895

转载 Deep Learning Tutorial 学习平台搭建

原文地址：Learning Tutorial 学习平台搭建" href="http://blog.sina.com.cn/s/blog_a37920d10101ee11.html" target="_blank">DeepLearning Tutorial 学习平台搭建作者：iTech学习Deep Learning Tutorial 0.1 的时候，发现其使用的平台是 Python

2013-07-15 12:42:26 2259

转载信号处理和模式识别方面的MATLAB工具箱

信号处理和模式识别方面的 matlab toolbox如果你做wavelet，ica，pca，svm，kernel等方法，希望下面的工具对你有帮助。Signal Processing (Top)Filter Design with Motorola DSP56Khttp://www.ee.ryerson.ca:8080/~mzeytin/dfp/index.html

2013-07-13 13:36:04 1901

转载北美18名校的数据挖掘，数据分析，人工智能及机器学习课程汇总

问答http://www.quora.com/What-is-data-science 数据科学是什么？http://www.quora.com/How-do-I-become-a-data-scientist 我怎样才能成为一个数据科学家？http://www.quora.com/Data-Science/How-does-data-science-differ-fr

2013-07-13 13:35:10 1411

原创语音识别的一些网址

Open Source Speech Software from Carnegie Mellon UniversityHephaestus: Open Source activities at Carnegie MellonCMU Sphinx recognition engines -- Sphinx 2, Sphinx 3, Sphinx 4, and SphinxTrain.Pock

2013-07-12 23:13:07 2924

转载 The Kaldi Speech Recognition Toolkit

The Kaldi Speech Recognition ToolkitArnab Ghoshal and Daniel PoveySLTC Newsletter, February 2012Kaldi is a free open-source toolkit for speech recognition research. It is written in C++ and prov

2013-07-11 23:50:19 3435

转载 .NET开发语音报警初探(Speech SDK)

[摘要]本文介绍.NET使用Speech SDK开发简单的语音报警程序，并提供简单的示例代码供参考。最近在做安监局安全联网系统，在系统中有会根据一定的条件报警(比如，瓦斯浓度超标)，除了在系统中提示之外，客户还提出需要语音报警。本篇文章主要是针对语音开发的一个前奏。语音方面的以前没有接触过，上网这方面的资料并不多。并且很多资料都是Speech SDK相关的，Windows平台下的SAP

2013-07-11 23:33:33 3148

语音识别kaldi安装

julius-4.2.3

空空如也