caihong0571-CSDN博客

原创 lstm

周日补上

2015-09-14 22:54:19 393

转载（EM算法）The EM Algorithm

（EM算法）The EM Algorithm转：http://www.cnblogs.com/jerrylead/archive/2011/04/06/2006936.html EM是我一直想深入学习的算法之一，第一次听说是在NLP课中的HMM那一节，为了解决HMM的参数估计问题，使用了EM算法。在之后的MT中的词对齐中也用到了。在Mitchell的书中也提到EM可以

2012-12-05 21:11:21 390

转载 MAPREDUCE流程3

我们以wordcount为例，假设有个6400M的文件，100台hadoop机器（准确地说应该是tasktracker机），默认block大小为64M，这样每台执行map的文件刚好是一个64M的block文件（假设这个分发过程已经完成，同时忽略备份数之类的细节），并且我们使用10个reduce任务来归并文件。Hadoop的mapreducer的执行过程如下：这100台机器上面的map都是并

2012-11-27 08:05:16 289

转载 mapreduce流程2

最近看了hadoop的mapreduce部分代码，看了之后总结了一下，算是成果吧。以下是程序执行的主要流程，其中参考了网上的一些文章。概括Hadoop包括hdfs与mapreduce两部分，在试用期期间我主要看了mapreduce部分，即hadoop执行作业的部分。mapreduce中几个主要的概念 mapreduce整体上可以分为这

2012-11-27 08:00:34 428

转载 mapreduce流程1

1. 概述Hadoop MapReduce基于“分而治之”的思想，将计算任务抽象成map和reduce两个计算过程，计算流程如下：map过程包括：1). 从磁盘读入数据2). 运行map任务3). 写结果到磁盘reduce过程包括：1). shuffle&sort2). 运行reduce任务3). 写结果到磁盘2. 分析在map的第三个阶

2012-11-27 07:59:30 601

转载隐马尔可夫模型

隐马尔可夫模型 (Hidden Markov Model，HMM) 最初由 L. E. Baum 和其它一些学者发表在一系列的统计学论文中，随后在语言识别，自然语言处理以及生物信息等领域体现了很大的价值。平时，经常能接触到涉及 HMM 的相关文章，一直没有仔细研究过，都是蜻蜓点水，因此，想花一点时间梳理下，加深理解，在此特别感谢 52nlp 对 HMM 的详细介绍。　　考虑下面交通灯的

2012-11-25 11:22:59 405

转载 Latent Semantic Analysis (LSA) Tutorial 潜语义分析LSA介绍（转）

Latent Semantic Analysis (LSA) Tutorial转：http://blog.csdn.net/yihucha166/article/details/6783212译：http://www.puffinwarellc.com/index.php/news-and-articles/articles/33.html 潜语义分析LSA介绍

2012-11-23 08:42:37 644

原创 object构造、拷贝构造、析构、临时对象

#include using namespace std;class howmany{ static int count; public: howmany() { count++; } static void print(const char *msg = 0) { if (msg) cout <<

2012-11-22 18:23:47 495

转载 Hadoop c++开发

假设你有上百G的数据，你要统计出这些数据中，含有某些你感兴趣的内容的数据的有多少条，你会怎么做？在硬件条件允许的情况下，用hadoop并行计算是一个不错的选择。为了使本文得以清晰地说明，我们不妨假设如下的情况：我们有100G的数据，分别保存在5个文件中，它们位于 /data/ 目录下。这5个数据文件的内容均为相同的格式，即，文件的内容大致如下：ABCDSDFKJDKF kk

2012-11-19 19:47:11 9841 2

原创 c++多态，继承，构造函数，析构函数

test程序：#include using namespace std;class A{ public: int m; A() { cout << "gouzao A" << endl; m = 1; } ~A() { cout << "xigou A" << endl; } virtual void print() { cout << "

2012-11-15 08:29:57 512

转载动态规划解决矩阵左上角到右下角距离最大(转 http://blog.csdn.net/ycc892009/article/details/6523167)

/****************************************************************** funciton:给定一个数字矩阵求从左上角到右下角距离最大。输出最大距离值。 condition:路径只能是往右与往下走。 Example Input: 2 2 0 6 3 4 3 2 8 1 9 2 2 9 Ou

2012-11-11 22:11:12 719

原创定a、b两个文件，各存放50亿个url，每个url各占64字节，内存限制是4G，让你找出a、b文件共同的url？

单位换算： 1G = 1000MB = 1000 * 1000KB = 1000 * 1000 * 1000 byte = 10亿byte = 80亿bit.文件：50亿＊64byte = 320G，就是每个文件有320Ｇ。内存：4Ｇ＝　320亿bit如果允许有一定的错误率：可用Bloom filter，原理：http://blog.csdn.net/jiaomeng/arti

2012-11-10 10:30:51 3018

原创两个单链表是否相交

1。判断两个链表是否有环，如果都没有，判断最后一个节点是不是一样的。如果一个有，一个没有，不相交。如果都有，判断环上的一点是否在另一个单链表里。#include using namespace std;typedef struct stNode{ int ch; struct stNode *pNext; stNode(){ch = 0; pNext =

2012-11-10 09:11:05 292

原创快速排序

时间复杂度：nlogn不稳定排序,#include using namespace std;void print(int a[], int n){ int i = 1; for (; i < n; ++i) { cout << a[i] << " "; } cout << endl;}int Partition(int a[], int low, int hi

2012-11-09 00:07:07 252

原创堆排序

堆排序只需要一个记录的辅助空间，代码中的tmp。代码中的数组第一个元素a[0]，没参与排序，需要排序的元素从1开始，这样代码的逻辑更容易理解(a[i] > a[2i] && a[i] > a[2i + 1] ) || (a[i] 时间复杂度为nlogn, 最坏的情况下也是如此，这是比快排有优势的地方。#include using namespace std;void hea

2012-11-08 19:52:19 273

Shell脚本学习指南

Shell脚本学习指南，一本很好的入门教程。

2012-12-13

严蔚敏《数据结构》源代码

严蔚敏版《数据结构》的源代码，可以接合代码更好地理解数据结构。

2012-12-13

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人