自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(16)
  • 收藏
  • 关注

转载 十道海量数据处理面试题与十个方法大总结

第一部分、十道海量数据处理面试题  1、海量日志数据,提取出某日访问百度次数最多的那个IP。  此题,在我之前的一篇文章算法里头有所提到,当时给出的方案是:IP的数目还是有限的,最多2^32个,所以可以考虑使用hash将ip直接存入内存,然后进行统计。  再详细介绍下此方案:首先是这一天,并且是访问百度的日志中的IP取出来,逐个写入到一个大文件中。注意到IP是32位的,最多

2013-08-16 16:46:14 587

转载 HDFS集群的启动(1)——概述

众所周知,在HDFS集群中,主要有两类节点,即NameNode和DataNode节点,确切的说,一个NameNode节点,其它的所有DataNode节点。那么,HDFS集群的启动就自然而然的可以看做是一个NameNode节点的启动和所有其它的DataNode节点的启动问题了。在这里我要不得不提的是,NameNode和DataNode有各自不同的启动方式,其中,NameNode的启动方式有:form

2013-08-16 16:37:51 601

转载 HDFS中的文件open操作

HDFS的文件open操作,实际上就是执行的是DistributedFileSystem的open(Path,int)函数,其中第一个函数就是文件的路径,第二个函数表示文件流的缓存大小,该函数返回的是DFSDataInputStream流。在这里,我不得不提的一点是,DFSDataInputStream是支持用户随机读的,之所以提及这一点,是因为我要在后面详细地介绍DFSDataInputStre

2013-08-16 16:30:48 638

转载 HDFS中DistributedFileSystem的创建

说白了,DistributedFileSystem就是HDFS的客户端API,而且严格说起来,DistributedFileSystem算是一种瘦客户端,因为它没有缓存任何关于HDFS中的文件及文件的元数据信息。可能这话我说的有点绝对,但至少在目前的最新版本中确实是这样的,至于会不会在以后的HDFS版本中为客户端加入缓存就不得而知了。反正,Apache Hadoop的官网上并没有任何迹象表明他们将

2013-08-16 16:25:30 814

转载 NameNode的format操作做了什么

在Hadoop的HDFS部署好了之后并不能马上使用,而是先要对配置的文件系统进行格式化。在这里要注意两个概念,一个是文件系统,此时的文件系统在物理上还不存在,或许是网络磁盘来描述会更加合适;二就是格式化,此处的格式化并不是指传统意义上的本地磁盘格式化,而是一些清除与准备工作。本文接下来将主要讨论NameNode节点上的格式化。       我们都知道,NameNode主要被用来管理整个分布

2013-08-16 16:19:45 500

转载 HDFS中namenode部分概述(一)

关于hdfs源码的阅读,我这个小菜鸟觉得有这么两种方式去读,一是抓住它关键的数据结构,知道了他们是干什么用的,剩下的就是一些围着他们转的操作了;二是跟踪执行过程的流程式阅读,以mkdir为例,从client应用发出mkdir请求到传递给namenode,再在datanode上执行,这么一个过程详细地跟踪下来,就理解了一大片。两种路子没有孰优孰劣,配合使用或许更有效。本篇先从数据结构的角度分享一点自

2013-08-16 16:14:39 751

转载 HDFS中的通信协议

HDFS中的通信协议通过对org.apache.hadoop.ipc包中,Hadoop实现了基于IPC模型的RPC机制,可以不需要像Java中实现的RMI机制一样,在RPC调用的C/S两端分别创建Stub和Skeleton,而是通过一组协议来进行RPC调用就可以实现通信。这主要是由于Hadoop所采用的序列化机制简化了RPC调用的复杂性。Hadoop定义了自己的通信协议,这些协议都是建

2013-08-16 15:13:39 1971

转载 HDFS的架构要点

HDFS的架构采用master/slave模式,一个HDFS集群是由一个Namenode和多个Datanode组成。    在HDFS集群中,只有一个Namenode结点。Namenode作为HDFS集群的中心服务器,主要负责:    1、管理HDFS集群中文件系统的名字空间(Namespace),例如打开文件系统、关闭文件系统、重命名文件或者目录等;另外,对任何请求对文件系统名字

2013-08-16 14:37:11 549

转载 初识zookeeper

1.zookeeper配置说明Zookeeper 的配置文件在 conf 目录下,这个目录下有 zoo_sample.cfg 和 log4j.properties,你需要做的就是将 zoo_sample.cfg 改名为 zoo.cfg,因为 Zookeeper 在启动时会找这个文件作为默认配置文件。下面详细介绍一下,这个配置文件中各个配置项的意义。 tickTime=2

2013-08-15 15:09:03 58

转载 zookeeper watch

zookeeper所有读操作(getData(),getChildren(),exists())具有设置watch的选项。zookeeper watch的定义如下:watch事件是一次性触发器,当watch监视的数据发生变化时,通知设置了该watch的client,即watcher。需要注意三点:1.一次性触发器client在一个节点上设置watch,随后节点内容改变,cl

2013-08-15 14:20:34 4949

转载 ZooKeeper ACL

ZooKeeper通过ACL来对ZNode进行访问控制。ZooKeeper客户端为ZNode指定ACL列表,ZooKeeper服务器根据ACL列表判定某个请求ZNode的客户端是否有对应操作的权限。一个ACL对象由Permissions和Ids两部分组成。Permissions用一组权限位(permission bits)来表示对应的权限,0表示无权限,1表示有权限。ZooKeep

2013-08-15 14:10:54 2259 2

原创 win7下resin4上安装solrcloud4.4

1概述:          windows和linux安装方式相同。2.准备: 1)下载solr4.4 resin ik 2)更改ik与solr兼容部分打包ik.jar 3)解压solr4.4到D盘 将D:\solr-4.4.0\example\solr目录复制到D:\resin盘,改名solr_home,并将D:\solr-4.4.0\example\so

2013-08-14 11:51:53 1691

原创 win7下tomcat7上安装solrcloud4.4

概述    由于机器台数的问题,本次搭建的是一台zookeeper服务器多台solr服务器的形式。其他知识这里不再啰嗦,可以参与:http://wiki.apache.org/solr/SolrCloud  注:"x"表示实际信息。预先准备  1.下载solr4.1.0的压缩包:http://labs.mop.com/apache-mirror/lucene/s

2013-08-12 15:24:00 1334

原创 windows下安装mongodb

windows下安装mongodb和简单使用mongodb命令一。下载,解压文件到官方下载合适的版本 http://www.mongodb.org/downloads例如:http://fastdl.mongodb.org/win32/mongodb-win32-i386-1.6.5.zip解压后放到对应的盘符下面,例如:G:\mongodb165二。安装1.把bin目录加

2013-08-06 11:31:16 531

转载 tf-idf

f-idf目录简介原理举例应用理论假设模型概率展开简介原理举例应用理论假设模型概率展开编辑本段简介TF-IDF[1](term frequency–inverse document frequency)是一种用于资讯检索与资讯探勘的常用加权技术。TF-IDF是一种统计方法,用

2013-08-01 10:02:54 483

转载 tf-idf详解

f-idf目录简介原理举例应用理论假设模型概率展开简介原理举例应用理论假设模型概率展开编辑本段简介TF-IDF[1](term frequency–inverse document frequency)是一种用于资讯检索与资讯探勘的常用加权技术。TF-IDF是一种统计方法,用

2013-08-01 10:02:22 3035

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除