自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

☆飞鸿雪泥☆

人生到处知何似,应似飞鸿踏雪泥。泥上偶然留指爪,鸿飞哪复计东西。 ------苏轼

  • 博客(23)
  • 收藏
  • 关注

百度笔试题:在矩阵中查找k

题目:给定如下的n*n的数字矩阵,每行从左到右是严格递增, 每列的数据也是严格递增1 2 33 5 64 8 9现在要求设计一个算法, 给定一个数k 判断出k是否在这个矩阵中。 描述算法并且给出时间复杂度(不考虑载入矩阵的消耗) 答案:沿着矩阵的对角线进行二分查找。如果k在这条对角线上,则可以得出,k在矩阵中;如果k比对角线上第一个数小,或者比对角线上最后...

2010-07-05 13:33:57 484

原创 《Hadoop开发者》第三期

《Hadoop开发者》第三期

2010-07-03 16:27:20 116

原创 Linux内核中的红黑树

红黑树是平衡二叉树的一种,它有很好的性质,树中的结点都是有序的,而且因为它本身就是平衡的,所以查找也不会出现非常恶劣的情况,基于二叉树的操作的时间复杂度是O(log(N))。Linux内核在管理vm_area_struct时就是采用了红黑树来维护内存块的。 先到include/linux/rbtree.h中看一下红黑树的一些定义,如下: struct rb_node{...

2010-07-03 16:25:04 244

转载 大数据量处理专题

<br />1. 给你A,B两个文件,各存放50亿条URL,每条URL占用64字节,内存限制是4G,让你找出A,B文件共同的URL。 <br /><br />2. 有10个文件,每个文件1G, 每个文件的每一行都存放的是用户的query,每个文件的query都可能重复。要你按照query的频度排序<br /><br />3. 有一个1G大小的一个文件,里面每一行是一个词,词的大小不超过16个字节,内存限制大小是1M。返回频数最高的100个词<br /><br />4.海量日志数据,提取出某日访问百度次数最多

2010-06-09 19:02:00 751

原创 大数据量处理专题

1. 给你A,B两个文件,各存放50亿条URL,每条URL占用64字节,内存限制是4G,让你找出A,B文件共同的URL。 2. 有10个文件,每个文件1G, 每个文件的每一行都存放的是用户的query,每个文件的query都可能重复。要你按照query的频度排序3. 有一个1G大小的一个文件,里面每一行是一个词,词的大小不超过16个字节,内存限制大小是1M。返回频数最高的100个词4.海量日志数据...

2010-06-09 18:24:06 109

原创 Hadoop中的数据库访问

<br /><br />Hadoop主要用来对非结构化或半结构化(HBase)数据进行存储和分析,而结构化的数据则一般使用数据库来进行存储和访问。本文的主要内容则是讲述如何将Hadoop与现有的数据库结合起来,在Hadoop应用程序中访问数据库中的文件。<br /> <br />1.DBInputFormat<br />DBInputFormat是Hadoop从0.19.0开始支持的一种输入格式,包含在包org.apache.hadoop.mapred.lib.db中,主要用来与现有的数据库系统进行交互,包

2010-06-09 10:18:00 1139

Hadoop中的数据库访问

Hadoop主要用来对非结构化或半结构化(HBase)数据进行存储和分析,而结构化的数据则一般使用数据库来进行存储和访问。本文的主要内容则是讲述如何将Hadoop与现有的数据库结合起来,在Hadoop应用程序中访问数据库中的文件。 1.DBInputFormatDBInputFormat是Hadoop从0.19.0开始支持的一种输入格式,包含在包org.apache.hadoop...

2010-06-03 20:21:50 571

《Hadoop开发者》第二期

 下载:http://ishare.iask.sina.com.cn/f/7401946.html (新浪爱问)

2010-04-09 10:13:49 124

Configure,Makefile.am, Makefile.in, Makefile文件之间关系

 1.autoscan (autoconf): 扫描源代码以搜寻普通的可移植性问题,比如检查编译器,库,头文件等,生成文件configure.scan,它是configure.ac的一个雏形。    your source files --&gt; [autoscan*] --&gt; [configure.scan] --&gt; configure.ac2.aclocal (...

2010-03-12 18:46:22 162

GDB调试精粹及使用实例

一:列文件清单 1. List (gdb) list line1,line2 二:执行程序 要想运行准备调试的程序,可使用run命令,在它后面可以跟随发给该程序的任何参数,包括标准输入和标准输出说明符(&lt;和&gt;)和外壳通配符(*、?、[、])在内。 如果你使用不带参数的run命令,gdb就再次使用你给予前一条run命令的参数,这是很有用的。 利用set args 命令就可以修改发送给程序...

2010-02-21 22:04:32 85

转载 GDB调试精粹及使用实例

一:列文件清单 1. List (gdb) list line1,line2 二:执行程序 要想运行准备调试的程序,可使用run命令,在它后面可以跟随发给该程序的任何参数,包括标准输入和标准输出说明符()和外壳通配符(*、?、[、])在内。 如果你使用不带参数的run命令,gdb就再次使用你给予前一条run命令的参数,这是很有用的。 利用set args 命令就可以修改发送给程序的参数,而使用sh

2010-02-21 22:00:00 419

原创 Hadoop开发者入门专刊

Hadoop开发者入门专刊 下载地址:http://bbs.hadoopor.com/thread-442-1-1.html

2010-02-04 16:48:00 622

《Hadoop开发者》第一期入门专刊

[align=center][size=x-large]Hadoop开发者入门专刊[/size][/align][img]http://dl.iteye.com/upload/attachment/203202/51d245ba-72b3-3dd5-a040-c985c1f5a43d.jpg[/img]

2010-02-04 16:43:05 120

原创 vi/vim键盘图

[align=center][size=x-large]vi/vim键盘图[/size][/align][img]http://dl.iteye.com/upload/attachment/203195/86736117-c8c7-30b6-a067-4c5b8d68b61b.png[/img]

2010-02-04 16:37:57 92

原创 在Windows中使用Cygwin安装HBase

在Windows中使用Cygwin安装HBase飞鸿雪泥1.简介HBase是 Hadoop 的正式子项目,它是一个面向列的分布式数据库,它在存储数据结构上并非关系型,而是疏松分布式的,持久并按多维排序并索引的map型,其思想源于Google的BigTable论文。(Google BigTable的paper: http://labs.google.com/papers/bigtab

2010-02-04 16:23:00 2063 1

原创 在Windows中使用Cygwin安装HBase

1.简介HBase是 Hadoop 的正式子项目,它是一个面向列的分布式数据库,它在存储数据结构上并非关系型,而是疏松分布式的,持久并按多维排序并索引的map型,其思想源于Google的BigTable论文。(Google BigTable的paper: http://labs.google.com/papers/bigtable-osdi06.pdf)由于HBase是一个分布式、大规模的...

2010-02-04 16:18:19 99

转载 Hadoop分布式文件系统:架构和设计要点

Hadoop分布式文件系统:架构和设计要点原文:http://hadoop.apache.org/core/docs/current/hdfs_design.html一、前提和设计目标1、硬件错误是常态,而非异常情况,HDFS可能是有成百上千的server组成,任何一个组件都有可能一直失效,因此错误检测和快速、自动的恢复是HDFS的核心架构目标。2、跑在HDFS上的应用与一般的应用不同,它们主

2009-02-11 21:05:00 849

转载 用 Hadoop 进行分布式并行编程, 第 3 部分

Hadoop 是一个实现了 MapReduce 计算模型的开源分布式并行编程框架,借助于 Hadoop, 程序员可以轻松地编写分布式并行程序,将其运行于计算机集群上,完成海量数据的计算。在本文中,详细介绍了如何部署 Hadoop 分布式运行环境,如何让程序分布式运行于多台普通的计算机上,如何使用 IBM MapReduce Tools 轻松地将 MapReduce 程序部署到 Hadoop 分

2009-02-11 21:03:00 725

转载 用 Hadoop 进行分布式并行编程, 第 2 部分

Hadoop 是一个实现了 MapReduce 计算模型的开源分布式并行编程框架,借助于 Hadoop, 程序员可以轻松地编写分布式并行程序,将其运行于计算机集群上,完成海量数据的计算。在本文中,详细介绍了如何针对一个具体的并行计算任务,基于 Hadoop 编写程序,如何使用 IBM MapReduce Tools 在 Eclipse 环境中编译并运行 Hadoop 程序。前言在上一篇

2009-02-11 21:01:00 654

转载 用 Hadoop 进行分布式并行编程, 第 1 部分

Hadoop 是一个实现了 MapReduce 计算模型的开源分布式并行编程框架,借助于 Hadoop, 程序员可以轻松地编写分布式并行程序,将其运行于计算机集群上,完成海量数据的计算。本文将介绍 MapReduce 计算模型,分布式并行计算等基本概念,以及 Hadoop 的安装部署和基本运行方法。Hadoop 简介Hadoop 是一个开源的可运行于大规模集群上的分布式并行编程框架,由

2009-02-11 20:58:00 632

转载 Annotated Hadoop: 第三节 MapReduce工作原理

3          MapReduce工作原理                      Map-Reduce框架的运作完全基于对,即数据的输入是一批对,生成的结果也是一批对,只是有时候它们的类型不一样而已。Key和value的类由于需要支持被序列化(serialize)操作,所以它们必须要实现Writable接口,而且key的类还必须实现WritableComparable接口,使

2009-02-11 20:55:00 498

转载 Annotated Hadoop: 第二节 MapReduce框架结构

2          MapReduce框架结构                  Map/Reduce是一个用于大规模数据处理的分布式计算模型,它最初是由Google工程师设计并实现的,Google已经将它完整的MapReduce论文公开发布了。其中对它的定义是,Map/Reduce是一个编程模型(programming model),是一个用于处理和生成大规模数据集(process

2009-02-11 20:52:00 511

转载 Annotated Hadoop: 第一节 Hadoop是什么

 1  Hadoop是什么Hadoop原来是Apache Lucene下的一个子项目,它最初是从Nutch项目中分离出来的专门负责分布式存储以及分布式运算的项目。简单地说来,Hadoop是一个可以更容易开发和运行处理大规模数据的软件平台。下面列举hadoop主要的一些特点: 1         扩容能力(Scalable):能可靠地(reliably)存储和处理千兆字节(PB)数据

2009-02-11 20:50:00 568

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除