crxy2016-CSDN博客

原创 Hadoop 源代码分析（七）RPC-Server

聊完了Client 聊Server，按惯例，先把类图贴出来。需要注意的是，这里的Server 类是个抽象类，唯一抽象的地方，就是Java 代码1. public abstract Writable call(Writable param, long receiveTime) throws IOException;这表明，Server 提供了一个架子，Server 的具体功

2015-05-14 16:26:16 329

原创 Hadoop 源代码分析（一七）DataNode

周围的障碍扫清以后，我们可以开始分析类DataNode。类图如下： publipublic class DataNode extends Configuredimplements InterDatanodeProtocol, ClientDatanodeProtocol, FSConsta nts, Runnable上面给出了DataNode 的继承关系，我们发现，DataNo

2015-05-11 16:05:25 298

原创 solr添加中文IK分词器,以及配置自定义词库

Solr是一个基于Lucene的Java搜索引擎服务器。Solr 提供了层面搜索、命中醒目显示并且支持多种输出格式（包括XML/XSLT 和 JSON 格式）。它易于安装和配置，而且附带了一个基于 HTTP 的管理界面。Solr已经在众多大型的网站中使用，较为成熟和稳定。Solr 包装并扩展了 Lucene，所以Solr的基本上沿用了Lucene的相关术语。更重要的是，Solr 创建的索引与

2015-05-08 10:24:07 306

原创 storm 核心API之普通Topology

普通Topology如果建立自己的Topology(非Transactional的)，用户通常需要利用如下接口和对象：IRichBoltIRichSpoutTopologyBuilderpublic interface ISpout extends Serializable {void open(Map conf, TopologyContext c

2015-05-05 14:40:48 341

原创 hbase数据存取策略

复制策略是hadoop文件系统最核心的部分，对读写性能影响很大，hadoop和其它分布式文件系统的最大区别就是可以调整冗余数据的位置，这个特性需要很多时间去优化和调整。一、数据存放目前hadoop采用以机柜为基础的数据存放策略，这样做的目的是提高数据可靠性和充分利用网络带宽。当前具体实现了的策略只是这个方向的尝试，hadoop短期的研究目标之一就是在实际产品环境中观察系统读写的行为，

2015-04-24 15:06:47 505

原创 sqoop流程详解

1.读取要导入数据的表结构，生成运行类，默认是QueryResult，打成jar包，然后提交给Hadoop2.设置好job，主要也就是设置好以上第六章中的各个参数3.这里就由Hadoop来执行MapReduce来执行Import命令了， 1）首先要对数据进行切分，也就是DataSplit DataDrivenDBInputFormat.g

2015-04-24 14:41:06 394

原创 hive join详解

语法join_table: table_referenceJOIN table_factor [join_condition] | table_reference{LEFT|RIGHT|FULL} [OUTER] JOIN table_reference join_condition | table_reference[url=]LEFT SEMIJOIN

2015-04-23 16:22:44 313

原创 HDFS读文件解析

下图描述了在文件读过程中，client、NameNode和DataNode三者之间是如何互动的。 1. client调用get方法得到HDFS文件系统的一个实例（DistributedFileSystem）。然后调用它的open方法。 2. DistributedFileSystem通过RPC远程调用NameNode决定文件文件的block的位置信息。对于每一个bolc

2015-04-14 10:37:33 325 3

原创 HIVE的数据存储

首先，Hive 没有专门的数据存储格式，也没有为数据建立索引，用户可以非常自由的组织 Hive 中的表，只需要在创建表的时候告诉 Hive 数据中的列分隔符和行分隔符，Hive 就可以解析数据。其次，Hive 中所有的数据都存储在 HDFS 中，Hive 中包含以下数据模型：Table，External Table，Partition，Bucket。Hive 中的 Table 和数据库

2015-04-13 14:47:27 290

原创 Hive 和普通关系数据库的异同

1. 查询语言。由于 SQL 被广泛的应用在数据仓库中，因此，专门针对 Hive 的特性设计了类 SQL 的查询语言 HQL。熟悉 SQL 开发的开发者可以很方便的使用 Hive 进行开发。 2. 数据存储位置。Hive 是建立在 Hadoop 之上的，所有 Hive 的数据都是存储在 HDFS 中的。而数据库则可以将数据保存在块设备或者本地文件系统中。 3.

2015-04-10 15:55:32 323

原创 Hbase详解—–管理 Splitting

除了让Hbase自动切割你的Region,你也可以手动切割。随着数据量的增大，splite会被持续执行。如果你需要知道你现在有几个region,比如长时间的debug或者做调优，你需要手动切割。通过跟踪日志来了解region级的问题是很难的，因为他在不停的切割和重命名。data offlineing bug和未知量的region会让你没有办法。如果一个 HLog 或者 StoreFile由于

2015-04-10 11:41:01 299

原创 Scala匿名函数详解

语法：Expr ::= (Bindings | Id | "_‟) "=>‟ ExprResultExpr ::= (Bindings | (Id | "_‟) ":‟ CompoundType) "=>‟ BlockBindings ::= "(‟ Binding {",‟ Binding} ")‟Binding ::= (id | "_‟) ["

2015-04-10 10:39:16 205

原创 Scala非值类型

以下类型并不表示值的集合，也并不显式地出现在程序中。它们只以已定义标识符的内部类型而引入。方法类型方法类型在内部表示为(Ts)U，(Ts)是一个类型序列(T1,...,Tn) n>=0，U是一个(值或者方法)类型。这个类型表示一个命名的方法，其参数的类型是T1,...,Tn，返回结果的类型是U。方法类型是右结合的，(Ts1)(Ts2)U被处理的方式是(Ts1)((Ts2)U)。

2015-04-09 10:54:39 296

原创使用FileSystem API读取数据

有时不能在应用中设置URLStreamHandlerFactory。这时，我们需要用FileSystem API来打开一个文件的输入流。文件在Hadoop文件系统中显示为一个Hadoop Path对象(不是一个java.io.File对象，因为它的语义与本地文件系统关联太紧密)。我们可以把一个路径视为一个Hadoop文件系统URI，如hdfs://localhost/user/tom/quan

2015-04-08 10:40:25 478

原创 Java MapReduce详解--（3）

如果Hadoop命令是以类名作为第一个参数，它就会启动一个JVM来运行这个类。使用命令比直接使用Java更方便，因为前者把类的路径(及其依赖关系)加入Hadoop的库中，并获得Hadoop的配置。要添加应用程序类的路径，我们需要定义一个HADOOP_CLASSPATH环境变量，Hadoop脚本会来执行相关操作。注意：以本地(独立)模式运行时，本书所有程序希望都以这种方式来设置HADOOP_CL

2015-04-08 10:39:00 356

原创从Hadoop URL中读取数据

要从Hadoop文件系统中读取文件，一个最简单的方法是使用java.net.URL对象来打开一个数据流，从而从中读取数据。一般的格式如下：1. InputStream in = null; 2. try { 3. in = new URL("hdfs://host/path").openStream(); 4. // process in

2015-04-07 14:20:28 278

原创 HDFS命令行接口详解

现在我们将通过命令行与HDFS交互。HDFS还有很多其他接口，但命令行是最简单的，同时也是许多开发者最熟悉的。在我们设置伪分布配置时，有两个属性需要进一步解释。首先是fs.default.name，设置为hdfs://localhost/,用来为Hadoop设置默认文件系统。文件系统是由URI指定的，这里我们已使用了一个hdfs URI 来配置HDFS为Hadoop的默认文件系统。HDFS的守

2015-04-03 10:37:04 520

原创 hadoop文件系统详解--（1）

Hadoop有一个抽象的文件系统概念，HDFS只是其中的一个实现。Java抽象类 org.apache.hadoop.fs.FileSystem展示了Hadoop的一个文件系统，而且有几个具体实现，如表 3-1所示。文件系统URI方案Java实现(全部在org.apache.hadoop)描述Local

2015-04-03 10:20:02 299

原创 Scala类型详解

语法： Type ::= InfixType „=>‟ Type | „(‟[„=>‟ Type] „)‟ „=>‟ Type | InfixType [ExistentialClause] ExistentialClause ::= „forSome‟ „{„ExistentialDc { semi ExistentialDcl} „}‟ ExistentialDcl :

2015-04-02 10:03:04 310

原创 HDFS概念详解---名称节点与数据节点

HDFS集群有两种节点，以管理者-工作者的模式运行，即一个名称节点(管理者)和多个数据节点(工作者)。名称节点管理文件系统的命名空间。它维护着这个文件系统树及这个树内所有的文件和索引目录。这些信息以两种形式将文件永久保存在本地磁盘上：命名空间镜像和编辑日志。名称节点也记录着每个文件的每个块所在的数据节点，但它并不永久保存块的位置，因为这些信息会在系统启动时由数据节点重建。客户端代表用户通过与名

2015-04-02 10:00:21 990

原创 HDFS概念详解—块

一个磁盘有它的块大小，代表着它能够读写的最小数据量。文件系统通过处理大小为一个磁盘块大小的整数倍数的数据块来运作这个磁盘。文件系统块一般为几千字节，而磁盘块一般为512个字节。这些信息，对于仅仅在一个文件上读或写任意长度的文件系统用户来说是透明的。但是，有些工具会维护文件系统，如df 和 fsck，它们都在系统块级上操作。HDFS也有块的概念，不过是更大的单元，默认为64 MB。与单一磁盘上

2015-04-01 11:15:53 344

原创 Scala前缀，中缀及后缀运算详解

Scala前缀，中缀及后缀运算详解

2015-03-19 11:28:51 504

原创 Hadoop安全性

HBase运行在Hadoop 0.20.x上，就可以使用其中的安全特性 -- 只要你用这两个版本0.20S 和CDH3B3，然后把hadoop.jar替换掉就可以了.

2015-03-18 14:57:00 319

原创 HBase 的 Schema 设计

HBase 的 Schema 设计

2015-03-16 11:08:10 230

一：redis简介：1：键-值存储通常被称作是一款数据结构服务器2：支持的数据类型：字符串、哈希、列表、集合、有序集合等。对这些数据类型，可以执行原子操作。3：为了获得优异的性能，redis采用内存中数据集的方式。4：redis支持数据的持久化，可以每个一段时间将数据转存到磁盘上，或在日志尾部追加一条操作命令。5：redis支持主从复制，并具有非常快速的非阻塞的首次同步、网络断开自动重连等功能。6：redis的一些其他功能：简单的事务支持、发布订阅、管道、虚拟内存等。

2015-03-11 11:58:12 140

原创 HDFS命令行接口

现在我们通过命令行交互来进一步认识HDFS。HDFS还有很多其他接口，但命令行是最简单的，同时也是许多开发者最熟悉的。

2015-03-10 15:28:20 296

原创 Hadoop使用常见问题以及解决方法

1：Shuffle Error: Exceeded MAX_FAILED_UNIQUE_FETCHES; bailing-out Answer：程序里面需要打开多个文件，进行分析，系统一般默认数量是1024，（用ulimit -a可以看到）对于正常使用是够了，但是对于程序来讲，就太少了。修改办法：修改2个文件。 /etc/security/limits.conf vi /etc/

2015-03-09 14:36:47 194

原创 HPCC 和 Hadoop 的详细区别比较

通常使用基于Intel或AMD CPU的刀片服务器来构建集群系统，为了降低成本可以使用已经停止销售的过时硬件。节点有本地内存和硬盘，通过高速交换机相连（通常为千兆交换机），如果集群节点很多，也可以使用分层交换。集群内的节点是对等的（所有资源可以简化为相同配置），但这一点并非必须。

2015-03-09 14:32:28 164

原创 Hive参数

hive参数

2015-02-11 10:38:51 115

转载 Hive学习笔记--Hive 参数

第一部分：Hive 参数hive.exec.max.created.files•说明：所有hive运行的map与reduce任务可以产生的文件的和•默认值:100000 hive.exec.dynamic.partition•说明：是否为自动分区•默认值：falsehive.mapred.reduce.tasks.speculativ

2015-02-11 10:37:40 51