自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(15)
  • 资源 (2)
  • 收藏
  • 关注

原创 lstm

周日补上

2015-09-14 22:54:19 373

转载 (EM算法)The EM Algorithm

(EM算法)The EM Algorithm转:http://www.cnblogs.com/jerrylead/archive/2011/04/06/2006936.html      EM是我一直想深入学习的算法之一,第一次听说是在NLP课中的HMM那一节,为了解决HMM的参数估计问题,使用了EM算法。在之后的MT中的词对齐中也用到了。在Mitchell的书中也提到EM可以

2012-12-05 21:11:21 369

转载 MAPREDUCE流程3

我们以wordcount为例,假设有个6400M的文件,100台hadoop机器(准确地说应该是tasktracker机),默认block大小为64M,这样每台执行map的文件刚好是一个64M的block文件(假设这个分发过程已经完成,同时忽略备份数之类的细节),并且我们使用10个reduce任务来归并文件。Hadoop的mapreducer的执行过程如下:这100台机器上面的map都是并

2012-11-27 08:05:16 270

转载 mapreduce流程2

最近看了hadoop的mapreduce部分代码,看了之后总结了一下,算是成果吧。以下是程序执行的主要流程,其中参考了网上的一些文章。概括Hadoop包括hdfs与mapreduce两部分,在试用期期间我主要看了mapreduce部分,即hadoop执行作业的部分。mapreduce中几个主要的概念       mapreduce整体上可以分为这

2012-11-27 08:00:34 409

转载 mapreduce流程1

1. 概述Hadoop MapReduce基于“分而治之”的思想,将计算任务抽象成map和reduce两个计算过程,计算流程如下:map过程包括:1). 从磁盘读入数据2). 运行map任务3). 写结果到磁盘reduce过程包括:1). shuffle&sort2). 运行reduce任务3). 写结果到磁盘2. 分析在map的第三个阶

2012-11-27 07:59:30 581

转载 隐马尔可夫模型

隐马尔可夫模型 (Hidden Markov Model,HMM) 最初由 L. E. Baum 和其它一些学者发表在一系列的统计学论文中,随后在语言识别,自然语言处理以及生物信息等领域体现了很大的价值。平时,经常能接触到涉及 HMM 的相关文章,一直没有仔细研究过,都是蜻蜓点水,因此,想花一点时间梳理下,加深理解,在此特别感谢 52nlp 对 HMM 的详细介绍。  考虑下面交通灯的

2012-11-25 11:22:59 382

转载 Latent Semantic Analysis (LSA) Tutorial 潜语义分析LSA介绍 (转)

Latent Semantic Analysis (LSA) Tutorial转:http://blog.csdn.net/yihucha166/article/details/6783212译:http://www.puffinwarellc.com/index.php/news-and-articles/articles/33.html         潜语义分析LSA介绍

2012-11-23 08:42:37 624

原创 object构造、拷贝构造、析构、临时对象

#include using namespace std;class howmany{ static int count; public: howmany() { count++; } static void print(const char *msg = 0) { if (msg) cout <<

2012-11-22 18:23:47 473

转载 Hadoop c++开发

假设你有上百G的数据,你要统计出这些数据中,含有某些你感兴趣的内容的数据的有多少条,你会怎么做?在硬件条件允许的情况下,用hadoop并行计算是一个不错的选择。为了使本文得以清晰地说明,我们不妨假设如下的情况:我们有100G的数据,分别保存在5个文件中,它们位于 /data/ 目录下。这5个数据文件的内容均为相同的格式,即,文件的内容大致如下:ABCDSDFKJDKF kk

2012-11-19 19:47:11 9794 2

原创 c++多态,继承,构造函数,析构函数

test程序:#include using namespace std;class A{ public: int m; A() { cout << "gouzao A" << endl; m = 1; } ~A() { cout << "xigou A" << endl; } virtual void print() { cout << "

2012-11-15 08:29:57 495

转载 动态规划解决矩阵左上角到右下角距离最大(转 http://blog.csdn.net/ycc892009/article/details/6523167)

/****************************************************************** funciton:给定一个数字矩阵求从左上角到右下角距离最大。输出最大距离值。 condition:路径只能是往右与往下走。 Example Input: 2 2 0 6 3 4 3 2 8 1 9 2 2 9 Ou

2012-11-11 22:11:12 693

原创 定a、b两个文件,各存放50亿个url,每个url各占64字节,内存限制是4G,让你找出a、b文件共同的url?

单位换算: 1G = 1000MB = 1000 * 1000KB = 1000 * 1000 * 1000 byte = 10亿byte = 80亿bit.文件:50亿*64byte = 320G,就是每个文件有320G。内存:4G= 320亿bit如果允许有一定的错误率:可用Bloom filter,原理:http://blog.csdn.net/jiaomeng/arti

2012-11-10 10:30:51 2996

原创 两个单链表是否相交

1。 判断两个链表是否有环,如果都没有,判断最后一个节点是不是一样的。如果一个有,一个没有,不相交。如果都有,判断环上的一点是否在另一个单链表里。#include using namespace std;typedef struct stNode{ int ch; struct stNode *pNext; stNode(){ch = 0; pNext =

2012-11-10 09:11:05 273

原创 快速排序

时间复杂度:nlogn不稳定排序,#include using namespace std;void print(int a[], int n){ int i = 1; for (; i < n; ++i) { cout << a[i] << " "; } cout << endl;}int Partition(int a[], int low, int hi

2012-11-09 00:07:07 232

原创 堆排序

堆排序只需要一个记录的辅助空间,代码中的tmp。代码中的数组第一个元素a[0],没参与排序,需要排序的元素从1开始,这样代码的逻辑更容易理解(a[i] > a[2i] && a[i] > a[2i + 1] ) || (a[i] 时间复杂度为nlogn, 最坏的情况下也是如此,这是比快排有优势的地方。#include using namespace std;void hea

2012-11-08 19:52:19 258

Shell脚本学习指南

Shell脚本学习指南,一本很好的入门教程。

2012-12-13

严蔚敏《数据结构》源代码

严蔚敏版《数据结构》的源代码,可以接合代码更好地理解数据结构。

2012-12-13

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除