![](https://img-blog.csdnimg.cn/20201014180756926.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
hadoop学习笔记
大阔龙
这个作者很懒,什么都没留下…
展开
-
05-Hadoop的HA搭建
前期Linux环境准备 1.修改Linux主机名 2.修改IP 3.修改主机名和IP的映射关系 4.关闭防火墙 5.ssh免登陆 6.安装JDK,配置环境变量等 集群规划 主机 IP 安装软件 运行进程 weekend01 192.168.1.201 jdk、hadoop NameNod原创 2017-02-28 10:16:18 · 360 阅读 · 0 评论 -
03-mapreduce的原理和编程
wordcount实例 1.mapperpackage com.apollo.mr.wordcount; import org.apache.hadoop.io.LongWritable; import org.apache.hadoop.io.Text; import org.apache.hadoop.mapreduce.Mapper; import java.io.IOException;原创 2017-02-27 12:38:51 · 254 阅读 · 0 评论 -
Lucene
Lucene介绍 Lucene是一个全文搜索框架,而不是应用产品。因此它并不像http://www.baidu.com/ 或者google Desktop那么拿来就能用,它只是提供了一种工具让你能实现这些产品。 Lucene: 是一个索引与搜索类库,而不是完整的程序。 倒排索引 Lucene为什么快: 压缩算法 二元搜索 倒排索引:根据属性的值来查找记录。这种索引表中的每一项都原创 2017-06-30 14:22:14 · 303 阅读 · 0 评论 -
04-常见mr算法实现和shuffle的机制
hadoop中的序列化机制 Writable,接口是序列化的接口,Comparable是排序实现接口 1.自定义传递值的类型 package com.apollo.mr.flowsum;import org.apache.hadoop.io.WritableComparable;import java.io.DataInput;import java.io.DataOu原创 2017-02-27 16:51:50 · 1774 阅读 · 0 评论 -
HBase笔记-4.HBase的mapredece
1.驱动类PutInDcustomerJob.java package com.chinalife.distributable.mergedcid.putIndcustomer; import java.io.IOException; import java.text.SimpleDateFormat; import java.util.ArrayList; import java.util.原创 2017-06-23 16:08:12 · 518 阅读 · 0 评论 -
HBase笔记-3.过滤器
比较运算符 LESS 匹配小于设定值的值 LESS_OR_EQUAL 匹配小于或等于设定值的值 EQUAL 匹配等于设定值的值 NOT_EQUAL 匹配大于设定值不相同的值 GREATER_OR_EQUAL 匹配大于或等于设定值的值 GREATER 匹配大于设定值的值 NOT_OP 排除一切值原创 2017-06-23 15:37:27 · 419 阅读 · 0 评论 -
HBase笔记-3.shell
# 创建user表,包含info、data两个列族 create 'user', {NAME => 'info', VERSIONS => '3'},{NAME => 'data', VERSIONS => '3'} create 'user', 'info', 'data' 简写 # 向user表中插入信息,row key为rk0001,列族info中添加name列标示符,值为zhang原创 2017-06-23 15:34:36 · 252 阅读 · 0 评论 -
HBase笔记-2.安装
一、HBase单机模式 1.hbase-env.sh中配置JAVA_HOME 2.hbase-site.xml配置 hbase.rootdir file:///home/testuser/hbase hbase.cluster.distributed false hbase.zookeeper.quorum /home/testuser/zo原创 2017-06-23 15:17:50 · 308 阅读 · 0 评论 -
HBase笔记-1.基本介绍
HBase简介 HBase-Hadoop Database,是一个提供高可靠性、高性能、列存储、可伸缩、实时读写的数据库系统。 利用Hadoop HDFS作为其文件存储系统,利用Hadoop MapReduce来处理HBase中的海量数据,利用zookeeper作为其分布式协同服务。 主要用来存储结构化和半结构化的数据(列存NOSQL数据库) HBase数据模型 R原创 2017-06-23 14:49:33 · 623 阅读 · 0 评论 -
02-HDFS的原理和使用操作、编程
一、NN元数据管理机制 NN的职责: 1.维护元数据信息 2.维护HDFS的目录树 3.响应客户端 ①用户向NN申请上传文件 ②NN将分配的DN信息记录追加在edit.log的文件中 ③NN将分配的DN信息返回给客户端 ④客户端将文件切块后,上传到各个DN节点上 ⑤客户端将上传成功的信息返回给NN节点, ⑥NN将edit.log文件中的内容写入内存中,一原创 2017-02-27 11:01:41 · 303 阅读 · 0 评论 -
01-Hadoop伪分布式安装
1.准备Linux环境 1.修改主机名 vim /etc/sysconfig/network NETWORKING=yes HOSTNAME=itcast ### 2.修改IP vim /etc/sysconfig/network-scripts/ifcfg-eth0 DEVICE="eth0" BOOTPROTO="static" ### HWADDR原创 2017-02-27 10:27:09 · 307 阅读 · 0 评论 -
HBase笔记-5.HBase的优化
1.表的设计 1.1 Pre-Creating Regions 默认情况下,在创建HBase表的时候会自动创建一个region分区,当导入数据的时候,所有的HBase客户端都向这一个region写数据,直到这个region足够大了才进行切分。一种可以加快批量写入速度的方法是通过预先创建一些空的regions,这样当数据写入HBase时,会按照region分区情况,在集群内做数据的负载均衡。原创 2017-06-26 15:21:32 · 338 阅读 · 0 评论