Rachel-Zhang-CSDN博客

原创 istream, outstream使用及常见错误

使用方法：使用filebuf打开文件，并拷贝给istream/ostream。如下面的例子中，实现读取并处理deseq文件夹下所有文件，输出到ostream fw.code:头文件：#include#include#include#include#include#include调用：void process(char* filename){ std::filebuf fbOut,

2014-11-27 14:38:41 20207

题目：给两个字符串S和T，判断T在S中出现的次数。A subsequence of a string is a new string which is formed from the original string by deleting some (can be none) of the characters without disturbing the relative positions of the remaining characters. (ie, "ACE" is a subsequence

2014-10-19 16:36:13 5884

原创排列组合（permutation）系列解题报告

本文讲解4道关于permutation的题目。1. Permutation：输出permutation——基础递归 2. Permutation Sequence: 输出第k个permutation——推理3. Next Permutation：给定一个permutation中的序列，求字典序它的下一个permutation是什么——逻辑推理4. Permutation II：和第一题有细微的差别: 对于一个可能有重复元素的数组输出所有permutation——有条件dfs

2014-10-18 18:46:15 11685 1

原创 Deep learning From Image to Sequence

本文笔记旨在概括地讲deep learning的经典应用。内容太大，分三块。1. 回顾 deep learning在图像上的经典应用 1.1 Autoencoder 1.2 MLP 1.3 CNN<详细的见上一篇CNN>2. deep learning处理语音等时序信号 2.1 对什么时序信号解决什么问题 2.2 准备知识 2.2.1 Hidden Markov Model(HMM) 2.2.2 GMM-HMM for Speec

2014-10-10 09:19:50 22245

原创 RNN-RBM for music composition 网络架构及程序解读

RNN(recurrent neural network)是神经网络的一种，主要用于时序数据的分析，预测，分类等。RNN的general介绍请见下一篇文章《Deep learning From Image to Sequence》。本文针对对deep learning有一点基础（神经网络基本training原理，RBM结构及原理，简单时序模型）的小伙伴讲一下Bengio一个工作(RNNRBM)的原理和实现。本文重点内容：针对RNN（recurrent neural network）一个应用：musi

2014-10-04 20:11:35 21444

转载堆内存和栈内存详解

堆：顺序随意栈：先进后出堆和栈的区别一、预备知识—程序的内存分配一个由c/C++编译的程序占用的内存分为以下几个部分 1、栈区（stack）— 由编译器自动分配释放，存放函数的参数值，局部变量的值等。其操作方式类似于数据结构中的栈 2、堆区（heap） — 一般由程序员分配释放，若程序员不释放，程序结束时可能由OS回收。注意它与数据结构中的堆是两回事，分配方式倒是类似于链表，呵呵。

2014-10-04 17:50:01 42724 1

原创用XMLRPC开服务进行server/client通信

本文讲一下如何用python的xmlrpc开服务，进行server/client的通信。应用场景：1）需多client访问应用程序给予应答情况——网页服务； 2）数据极大，希望加载一次，后面只用方法调用解决方案：开两个服务，一个数据服务，一个网络服务；数据服务端加载数据，网络服务端调用数据，并将结果显示在网络服务中；外部调用网络服务返回结果；应用工具：xmlrpc，本文中以python 2.7.3的xmlrpclib为例，其他语言也有相应接口下面分别说明。

2014-08-17 00:07:07 13992 1

原创给定字典做分词

最近需要用到分词，无聊写个算法。。。算法：给定一个字典和一句话，做分词；Target：输入词典，输出所有可能的分词结果思路：dfs加速：首先判断是不是这句话里所有的词在字典中都有（validate）//// Wordsplit.cpp// // Target: Find all possible splitting of a sentence given a dictionary di

2014-08-16 23:47:26 7522 1

转载 Matrix Factorization, Algorithms, Applications, and Avaliable packages

来源：http://www.cvchina.info/2011/09/05/matrix-factorization-jungle/美帝的有心人士收集了市面上的矩阵分解的几乎所有算法和应用，由于源地址在某神秘物质之外，特转载过来，源地址Matrix Decompositions has a long history and generally centers around a set of kno

2014-06-13 00:12:34 11592

原创 GMM-HMM语音识别模型原理篇

本文简明讲述GMM-HMM在语音识别上的原理，建模和测试过程。这篇blog只回答三个问题：1. 什么是Hidden Markov Model？2. GMM是神马？怎样用GMM求某一音素（phoneme）的概率？3. 用GMM+HMM大法解决语音识别

2014-05-28 20:52:33 108879 45

原创 Convolution Neural Network (CNN) 原理与实现

本文结合Deep learning的一个应用，Convolution Neural Network 进行一些基本应用，参考Lecun的Document 0.1进行部分拓展，与结果展示（in python）。分为以下几部分：1. Convolution（卷积）2. Pooling（降采样过程）3. CNN结构4. 跑实验下面分别介绍

2014-05-15 20:51:07 106173 13

原创 MC, MCMC, Gibbs采样原理&实现（in R）

本文用讲一下指定分布的随机抽样方法：MC(Monte Carlo), MC(Markov Chain), MCMC(Markov Chain Monte Carlo)的基本原理，并用R语言实现了几个例子：1. Markov Chain （马尔科夫链）2. Random Walk（随机游走）3. MCMC具体方法： 3.1 M-H法 3.2 Gibbs采样 PS：本篇blog为ese机器学习短期班参考资料（20140516课程）。

2014-05-15 19:50:44 91918 6

原创 python并行调参——scikit-learn grid_search

上篇应用scikit-learn做文本分类中以20newsgroups为例讲了如何用三种方法提取训练集=测试集的文本feature，但是vectorizer取多少个word呢？预处理时候要过滤掉tf>max_df的words，max_df设多少呢？tfidftransformer只用tf还是加idf呢？classifier分类时迭代几次？学习率怎么设？……“循环一个个试过来啊”……啊好吧，matlab里就是这么做的……好在scikit-learn中提供了pipeline(for estimat

2014-04-17 14:12:28 35886 5

原创应用scikit-learn做文本分类

文本挖掘的paper没找到统一的benchmark，只好自己跑程序，走过路过的前辈如果知道20newsgroups或者其它好用的公共数据集的分类（最好要所有类分类结果，全部或取部分特征无所谓）麻烦留言告知下现在的benchmark，万谢！嗯，说正文。20newsgroups官网上给出了3个数据集，这里我们用最原始的20news-19997.tar.gz。分为以下几个过程：1.加载数据集2.提feature3.分类{Naive Bayes,KNN,SVM}4.聚类说明： scipy官网上有参考

2014-04-13 20:53:15 99354 9

原创子文件夹引用numpy出错解决方案

yu a

2014-04-09 08:53:23 20404 2

原创 Ubuntu12.04配置NVIDIA cuda5.5经验帖

之前配过一遍都忘光了，现在要重新配一遍真是好难过。。。特此记录参考网站以便查阅。=============环境：Ubuntu 12.04+Cuda5.51. 判断安装环境：The setup of CUDA development tools on a system running the appropriate version of Linux consists of a few simple

2014-04-06 08:58:32 25696 4

转载 Hadoop 格式化namenode错误：FATAL namenode.NameNode: Exception innamenode join

ERROR namenode.NameNode: java.io.IOException: Cannot create directory /export/home/dfs/name/currentERROR namenode.NameNode: java.io.IOException: Cannot remove current directory: /usr/local/hadoop/hdfs

2014-03-28 13:05:06 23040 3

原创无法定位程序输入点_invalid_parameter_noinfo_noreturn于动态链接库 MSVCR100.dll上

1_NonReentrantPPLLockHolder@details@Concurrency@@QAE@XZ与动态链接库msvcr100.dll上- 试过重装MSVCR100.dll (无效而且由于版本不对引起了其他错误)，官方MSVCR win7，XP的dll下载地址：http://www.microsoft.com/zh-cn/download/details.aspx?id=5555最终成

2014-03-24 14:34:13 13758 1

原创 Decision Tree 及实现

本文基于python逐步实现Decision Tree(决策树)，分为以下几个步骤：1.加载数据集2.熵的计算3.根据最佳分割feature进行数据分割4.根据最大信息增益选择最佳分割feature5.递归构建决策树6.样本分类将分别体现于代码。

2014-03-17 12:12:15 31188 13

原创 opencv 人脸识别（二）训练和识别

上一篇中我们对训练数据做了一些预处理，检测出人脸并保存在\pic\color\x文件夹下（x=1,2,3,...类别号），本文做训练和识别。为了识别，首先将人脸训练数据转为灰度、对齐、归一化，再放入分类器（EigenFaceRecognizer）,最后用训练出的model进行predict。-----------------------------------------环境：vs2010+op

2014-03-04 13:21:09 41891 75

原创 opencv 人脸识别（一）训练样本的处理

本文实现基于eigenface的人脸检测与识别。给定一个图像数据库，进行以下步骤：进行人脸检测，将检测出的人脸存入数据库2对数据库2进行人脸建模在测试集上进行recognition本篇实现第一步：进行人脸检测，将检测出的人脸存入数据库2

2014-03-04 13:15:15 79289 13

原创 K近邻分类算法实现 in Python

K近邻（KNN）：分类算法* Machine Learning的Python库很多，比如mlpy，这里实现只是为了掌握方法* MATLAB 中的调用，见《MATLAB分类器大全(svm,knn,随机森林等)》* 算法复杂度高（可用KD树优化，C中可以用libkdtree或者ANN）* k越小越容易过拟合，但是k很大会降分类精度（设想极限情况：k=1和k=N(样本数)）本文不

2014-03-02 14:37:24 20868 1

原创 PAT 解题报告

PAT 1070Mooncake (25)时间限制100 ms内存限制32000 kB代码长度限制16000 B判题程序Standard作者CHEN, YueMooncake is a Chinese bakery product traditionally eaten during the Mid-Autumn Festival. Many types of fillings and crust

2014-02-20 12:57:02 18768

原创最短路径数 Dijkstra+dfs

寻找最短路径数标准dijkstra和spfa解法见《畅通工程续——Dijkstra模板》本篇多一项要求，求同样cost的最短路径数目。我们用dfs深搜，见代码注释。

2014-02-18 15:01:10 7597

原创 Matlab并行编程<cellfun & arrayfun>

本篇blog针对两个函数cellfun和arrayfun对程序的加速写一些东西，方便大家调的一手好参数。之前的一篇blog《Matlab并行编程方法》在具体实现时可能有问题（下面会讲），而我查到的对Matlab并行的讲解资料也没有写明这个问题。。。所以这里提一下比较实用的matlab并行加速方法，本篇的出现感谢@王小川_Matlab的热心指点。

2014-02-15 20:49:16 16746

原创寻找前K大数

寻找前K大数，虽然这个问题已经被做烂了，但是无意中看到之前A题时候的一个代码，还是忍不住改了改想提高下效率，从O(NlogN)降到O（KlogN）。当时用的是很简单的冒泡和sort，恩，也就是对数组全部元素排序，复杂度O(NlogN), 但是当K很小时，比如题目中K<=10的情况无疑浪费了。因此用quicksort的思路，每次将数组partition成两部分，一边＜key，一边＞key。然后迭代地找前k大数。

2014-02-15 17:22:33 11851 4

原创 R语言基本数据分析

本文基于R语言进行基本数据统计分析，包括基本作图，线性拟合，逻辑回归，bootstrap采样和Anova方差分析的实现。不多说，直接上代码，代码中有注释。1. 基本作图（盒图，qq图）#basic plotboxplot(x)qqplot(x,y)2. 线性拟合#linear regressionn = 10x1 = rnorm(n)#variable 1x2 = rnorm(n)#varia

2014-02-08 23:52:14 44029 2

原创 2013年度总结

从2013的尾巴到2014的春节一直在忙着跑实验，就这样，我亲爱的2013已逝，让我措手不及。之所以说是我亲爱的2013，因为实在大爱这个数字。它的三个质因数：3，11和61中后两个数之和倒过来是27，我的幸运数字。这起源于幼儿园时的某天，傻缺的发现了27 = 3*3*3, 而2+7 = 3+3+3, 好开心啊！而当天老师发了我们每人一个水杯（记忆犹新是韩老师发的白色瓷杯），上面印着27号，同天，

2014-02-08 16:09:36 21335 13

原创 opencv 金字塔图像分割

我所知的opencv中分割函数：watershed（只是看看效果，不能返回每类pixel类属），cvsegmentImage，cvPyrSegmentation（返回pixel类属）Segment函数：#include#include #include #include #include #include #include #include #include #include

2014-01-13 10:32:04 14637 1

原创 Mat, IplImage, CvMat, Cvarr关系及元素获取

因为之前查资料关于opencv几种坑爹类型CvMat, Mat, IplImage, Cvarr的详细讲解很多，但详细到多通道元素获取和涉及到类型转换的文章极少，还有更坑爹的一些误导文章，所以本文很简要地讲一下怎样获取这几种类型的元素，及其类型转换。

2014-01-11 21:51:49 15696 2

转载 c++ 遍历目录下文件

function：遍历目录下所有文件，返回文件总数，子文件夹总数（修改一下可以获得全部文件名等）。#include "stdlib.h"#include "direct.h"#include "string.h"#include "io.h"#include "stdio.h" #include "iostream"using namespace std;class CBrowse

2014-01-11 20:28:38 52300 2

原创 Matlab并行编程方法

本文讲一下matlab中的并行方法与技巧。分为以下几个板块：1. 什么东西好并行？2. 怎么并行？3. parfor vs. SPMD4. 注意事项及经验总结

2014-01-03 08:08:27 114390 11

原创 .NET + OpenCV & Python + OpenCV

最近需要做一个图像识别的GUI应用，权衡了Opencv+ 1）QT，2）Python GUI，3）.NET后选择了.NET。。。本文给出C#+Opencv和Python+Opencv的相应参考，节省大家时间。

2013-12-26 21:08:15 13836

原创 Color Transfer between Images

本文实现了两幅图像的颜色转换（based on Opencv2.3.1 + vs )效果：代码：

2013-12-25 11:58:28 10571 1

原创 C++ call matlab on <mac + xcode >

本文讲解如何在mac+xcode上用C/C++调用matlab，并给出一个极简单的应用，kmeans.env：matlab 2013+Xcode 4.6+Mac 10.8 （x86-64）1. 终端下跑matlab例程2. xcode下跑例程3. kmeans of matlab under C4. 利用XCode进行Exception精确定位

2013-12-25 11:10:07 11491 1

转载 MatLab2012b/MatLab2013b 分类器大全(svm,knn,随机森林等)

train_data是训练特征数据, train_label是分类标签。Predict_label是预测的标签。MatLab训练数据, 得到语义标签向量 Scores(概率输出)。1.逻辑回归(多项式MultiNomial logistic Regression)Factor = mnrfit(train_data, train_label);Scores = mnrval(Factor, tes

2013-12-05 10:50:30 56305

原创 Mac+MySQL+Xcode数据库配置

Mac下的数据库配置讲解很少，本文列出了我配置过程中的大多数可能错误和注意事项。--------------------------------------------------------一、 Mac上配置MySQL Connector/C++1. 打开mysql-5.6.14-osx10.7-x86_64.dmg(http://dev.mysql.com/downloads/mysql/)

2013-11-27 14:05:31 34823 13

原创 Comprehensions on Group NMF

最近看了一下group sparsity和group structure方面的东西，本文主要针对了其中一种在NMF上的应用得到的group sparsity总结了一些东西。这篇理论上的文章没有被引用很多，但是其在EEG上用Group NMF做得一篇文章倒是有些影响力的。具体参考reference吧。总的来说，group sparsity或者单纯的sparsity对于一些有物理意义的东西比较好解释，

2013-06-27 13:11:53 11115

原创 K-SVD简述——字典学习，稀疏编码

K-SVDRachel Zhang 1. k-SVD introduction1. K-SVD usage:Design/Learn a dictionary adaptively to betterfit the model and achieve sparse signal representations.2. Main Problem:Y = DXWhere Y∈R(n*N)

2013-03-20 12:51:58 90821 10

原创 MOD 之"Hello World"

首先声明，MOD不是取模函数！MOD是字典学习和sparse coding的一种方法… 最近在看KSVD，其简化版就是MOD（method of directions）,这么说吧，KSVD和MOD的优化目标函数是相同的，MOD之所以可以称作KSVD的简化版是因为KSVD在MOD的基础上做了顺序更新列的优化。关于KSVD和MOD的理论知识请见下面我给出的一页note和referenc中的paper。

2013-02-22 17:05:58 15351 7

python实现并行爬虫

指定爬虫depth、线程数， python实现并行爬虫

2015-09-07

python实现网络图片爬虫

程序支持多线程爬虫，主文件为spider.py, testSpider.py为单测

2015-09-07

gputimer.h

CUDA系列学习（四）Parallel Task类型与 Memory Allocation 配套代码获取gpu时间

2015-02-03

LR_Mnist.py

http://blog.csdn.net/abcjennifer/article/details/25912675 的辅助代码，利用stochastic gradient descent 进行logistic regression, 应用于mnist数据集

2015-01-07

deep learning 概览+时序模型

Content 1. 回顾 deep learning在图像上的经典应用 1.1 Autoencoder 1.2 MLP 1.3 CNN<详细的见上一篇CNN> 2. deep learning处理语音等时序信号 2.1 对什么时序信号解决什么问题 2.2 准备知识 2.2.1 Hidden Markov Model(HMM) 2.2.2 GMM-HMM for Speech Recognition 2.2.3 Restricted Boltzmann Machine（RBM） 3.

2014-05-29

Convolution Neural Network (CNN)

PS：本篇blog为ese机器学习短期班参考资料（20140516课程），本文只是简要讲最naive最simple的思想，重在实践部分，原理课上详述。

2014-05-15

20newsgroup python分类聚类

http://blog.csdn.net/abcjennifer/article/details/23615947

2014-04-13

人脸检测与识别

环境：opencv 2.4.6.0 特征：eigenface Input：一个人脸数据库，15个人，每人20个样本（左右）。 Output：人脸检测，并识别出每张检测到的人脸。

2014-03-16

决策树python实现

基于python逐步实现Decision Tree(决策树)，分为以下几块：加载数据集熵的计算根据最佳分割feature进行数据分割根据最大信息增益选择最佳分割feature 递归构建决策树样本分类

2014-03-10

KMeans和Kmedoid算法的matlab实现

本资源为KMeans和KMedoid算法的实现，算法讲解见http://blog.csdn.net/abcjennifer/article/details/8197072

2012-11-18

C++矩阵处理工具——Eigen3

C++矩阵处理工具——Eigen3工具包，其内部封装了很多矩阵类，可以在C++环境轻松进行矩阵处理（与操作系统无关，window，linux均可）。附上Eigen3的讲解链接：http://blog.csdn.net/abcjennifer/article/details/7781936

2012-07-24

压缩感知基础

压缩感知基础内容，包括陶哲轩在外面讲座的ppt和一些大牛对CS的见解。

2012-07-15

Difference of Gaussian DoG

DoG (Difference of Gaussian)实现角点检测。效果见http://blog.csdn.net/abcjennifer/article/details/7639488#comments

2012-06-09

libsvm 程序集数据集

libsvm 数据集包括 matlab数据集和 VC数据集

2012-04-11

广度有限搜索 bfs 基础骑士的任务课件

详细讲解了骑士的任务用队列方法解决的策略，层层深入

2009-10-14

动态规划基础（初学者必读）

详细的讲解了动态规划基本思想，基本步骤，内附经典例题！（包括经典的背包问题，初学者必看）！前提 ●贪心法（它是一种多步决策法，它总是作出在当前看来是最好的选择，它的考虑不是从整体出发，而只是某种意义上的局部最优，这样贪心法不能对所有问题达到整体最优解，但是对相当范围的许多问题都能够产生整体最优解。--译者） ●动态规划（它是将问题进行逐步的划分来缩小问题的规模，直到可以求出子问题的解为止。分划子问题后，对应的子问题中含有大量的重复，这样就将重复地求解；在第一次遇到重复时把它解决，并将解保存起来，以备后面引用。动态规划法常用来求一个问题在某种意义下的最优解。--译者） ●递归下降