- 博客(15)
- 资源 (2)
- 收藏
- 关注
转载 (EM算法)The EM Algorithm
(EM算法)The EM Algorithm转:http://www.cnblogs.com/jerrylead/archive/2011/04/06/2006936.html EM是我一直想深入学习的算法之一,第一次听说是在NLP课中的HMM那一节,为了解决HMM的参数估计问题,使用了EM算法。在之后的MT中的词对齐中也用到了。在Mitchell的书中也提到EM可以
2012-12-05 21:11:21 390
转载 MAPREDUCE流程3
我们以wordcount为例,假设有个6400M的文件,100台hadoop机器(准确地说应该是tasktracker机),默认block大小为64M,这样每台执行map的文件刚好是一个64M的block文件(假设这个分发过程已经完成,同时忽略备份数之类的细节),并且我们使用10个reduce任务来归并文件。Hadoop的mapreducer的执行过程如下:这100台机器上面的map都是并
2012-11-27 08:05:16 289
转载 mapreduce流程2
最近看了hadoop的mapreduce部分代码,看了之后总结了一下,算是成果吧。以下是程序执行的主要流程,其中参考了网上的一些文章。概括Hadoop包括hdfs与mapreduce两部分,在试用期期间我主要看了mapreduce部分,即hadoop执行作业的部分。mapreduce中几个主要的概念 mapreduce整体上可以分为这
2012-11-27 08:00:34 428
转载 mapreduce流程1
1. 概述Hadoop MapReduce基于“分而治之”的思想,将计算任务抽象成map和reduce两个计算过程,计算流程如下:map过程包括:1). 从磁盘读入数据2). 运行map任务3). 写结果到磁盘reduce过程包括:1). shuffle&sort2). 运行reduce任务3). 写结果到磁盘2. 分析在map的第三个阶
2012-11-27 07:59:30 601
转载 隐马尔可夫模型
隐马尔可夫模型 (Hidden Markov Model,HMM) 最初由 L. E. Baum 和其它一些学者发表在一系列的统计学论文中,随后在语言识别,自然语言处理以及生物信息等领域体现了很大的价值。平时,经常能接触到涉及 HMM 的相关文章,一直没有仔细研究过,都是蜻蜓点水,因此,想花一点时间梳理下,加深理解,在此特别感谢 52nlp 对 HMM 的详细介绍。 考虑下面交通灯的
2012-11-25 11:22:59 405
转载 Latent Semantic Analysis (LSA) Tutorial 潜语义分析LSA介绍 (转)
Latent Semantic Analysis (LSA) Tutorial转:http://blog.csdn.net/yihucha166/article/details/6783212译:http://www.puffinwarellc.com/index.php/news-and-articles/articles/33.html 潜语义分析LSA介绍
2012-11-23 08:42:37 644
原创 object构造、拷贝构造、析构、临时对象
#include using namespace std;class howmany{ static int count; public: howmany() { count++; } static void print(const char *msg = 0) { if (msg) cout <<
2012-11-22 18:23:47 495
转载 Hadoop c++开发
假设你有上百G的数据,你要统计出这些数据中,含有某些你感兴趣的内容的数据的有多少条,你会怎么做?在硬件条件允许的情况下,用hadoop并行计算是一个不错的选择。为了使本文得以清晰地说明,我们不妨假设如下的情况:我们有100G的数据,分别保存在5个文件中,它们位于 /data/ 目录下。这5个数据文件的内容均为相同的格式,即,文件的内容大致如下:ABCDSDFKJDKF kk
2012-11-19 19:47:11 9841 2
原创 c++多态,继承,构造函数,析构函数
test程序:#include using namespace std;class A{ public: int m; A() { cout << "gouzao A" << endl; m = 1; } ~A() { cout << "xigou A" << endl; } virtual void print() { cout << "
2012-11-15 08:29:57 512
转载 动态规划解决矩阵左上角到右下角距离最大(转 http://blog.csdn.net/ycc892009/article/details/6523167)
/****************************************************************** funciton:给定一个数字矩阵求从左上角到右下角距离最大。输出最大距离值。 condition:路径只能是往右与往下走。 Example Input: 2 2 0 6 3 4 3 2 8 1 9 2 2 9 Ou
2012-11-11 22:11:12 719
原创 定a、b两个文件,各存放50亿个url,每个url各占64字节,内存限制是4G,让你找出a、b文件共同的url?
单位换算: 1G = 1000MB = 1000 * 1000KB = 1000 * 1000 * 1000 byte = 10亿byte = 80亿bit.文件:50亿*64byte = 320G,就是每个文件有320G。内存:4G= 320亿bit如果允许有一定的错误率:可用Bloom filter,原理:http://blog.csdn.net/jiaomeng/arti
2012-11-10 10:30:51 3018
原创 两个单链表是否相交
1。 判断两个链表是否有环,如果都没有,判断最后一个节点是不是一样的。如果一个有,一个没有,不相交。如果都有,判断环上的一点是否在另一个单链表里。#include using namespace std;typedef struct stNode{ int ch; struct stNode *pNext; stNode(){ch = 0; pNext =
2012-11-10 09:11:05 292
原创 快速排序
时间复杂度:nlogn不稳定排序,#include using namespace std;void print(int a[], int n){ int i = 1; for (; i < n; ++i) { cout << a[i] << " "; } cout << endl;}int Partition(int a[], int low, int hi
2012-11-09 00:07:07 252
原创 堆排序
堆排序只需要一个记录的辅助空间,代码中的tmp。代码中的数组第一个元素a[0],没参与排序,需要排序的元素从1开始,这样代码的逻辑更容易理解(a[i] > a[2i] && a[i] > a[2i + 1] ) || (a[i] 时间复杂度为nlogn, 最坏的情况下也是如此,这是比快排有优势的地方。#include using namespace std;void hea
2012-11-08 19:52:19 273
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人