hadoop
Hadoop
fuzuxian
仰望星空,脚踏实地
展开
-
Zookeeper
面试前端。。。遇到问zookeeper的原理。。。没复习以前学的。。。回答问题太没自信。。对自己无语。。。 Zookeeper的读写机制 Zookeeper是一个由多个server组成的集群一个leader,多个follower每个server保存一份数据副本全局数据一致分布式读写更新请求转发,由leader实施Zookeeper的保证更新请求顺序进行,来自同一...原创 2020-03-02 23:45:30 · 245 阅读 · 0 评论 -
Hbase和Hdfs之间数据存储与统计分析——MapReduce
转自大佬的博客: https://blog.csdn.net/m0_37739193/article/details/76053636一、从Hbase表1中读取数据再把统计结果存到表2在Hbase中建立相应的表1:create 'hello','cf'put 'hello','1','cf:hui','hello world'put 'hello','2','cf:hui','hel...转载 2018-08-06 16:35:15 · 1143 阅读 · 0 评论 -
MapReduce例子——找出QQ共同好友
///////////////////\\\\\\\\ fri.txt 如下: person: friend1, friend2, friend3, friend4, …..A:B,C,D,F,E,OB:A,C,E,KC:F,A,D,ID:A,E,F,LE:B,C,D,M,LF:A,B,C,D,E,O,MG:A,C,D,E,FH:A,C,D,E,OI:A,OJ:B,...原创 2018-07-29 20:14:41 · 538 阅读 · 0 评论 -
布隆过滤器(Bloom Filter)原理与应用——Mapreduce
布隆过滤器——初始状态 转自: 海量数据处理算法—Bloom Filter假设Bloom Filter使用一个m比特的数组来保存信息,初始状态时,Bloom Filter是一个包含m位的位数组,每一位都置为0。布隆过滤器——添加元素将要添加的元素给k个哈希函数(Hash Function),也称之为散列函数, 得到对应于位数组上的k个位置,将这k个位置设为1。现有S={x1, x2,…,x...原创 2018-07-09 19:57:01 · 2805 阅读 · 0 评论 -
Hadoop实现全排序——MapReduce
转自: 点击打开链接1. 使用一个Reduce进行排序 MapReduce默认只是保证同一个分区内的Key是有序的,但是不保证全局有序,因此将所有的数据全部发送到一个Reduce,这样实现全排序。import org.apache.hadoop.conf.Configured;import org.apache.hadoop.fs.Path;import org.apache.hadoo...原创 2018-07-09 13:46:49 · 1098 阅读 · 0 评论 -
MapReduce输出格式
转载自大佬的:https://www.cnblogs.com/codeOfLife/p/5464956.html     针对前面介绍的输入格式,MapReduce也有相应的输出格式。默认情况下只有一个 Reduce,输出只有一个文件,默认文件名为 part-r-00000,输出文件的个数与 Reduce 的个数一致。 如果有两个Redu...转载 2018-07-08 21:53:18 · 1107 阅读 · 0 评论 -
Partitioner内置分区与Partitioner自定义分区
转载自: https://blog.csdn.net/hanweida/article/details/45744781 MapReduce——Partitioner内置分区与Partitioner自定义分区MapReduce的编程灵活性很高,其中Partitioner分区函数的作用也很重要。Partitioner分区函数的作用:根据业务的需求,...转载 2018-07-08 21:42:53 · 504 阅读 · 0 评论 -
MapReduce设计模式学习——读书笔记
转载自大佬的博客: https://blog.csdn.net/gamer_gyt/article/details/50866905一:概要模式1:简介概要设计模式更接近简单的MR应用,因为基于键将数据分组是MR范型的核心功能,所有的键将被分组汇入reducer中本章涉及的概要模式有数值概要(numerical summarization),倒排索引(inverted index)...转载 2018-07-08 17:20:50 · 541 阅读 · 0 评论 -
MapReduce—API
转 Hadoop API 使用介绍 <div class="article-info-box"> <div class="article-bar-top d-flex">转载 2018-07-07 22:37:11 · 856 阅读 · 0 评论 -
Mapper类——hadoop
1、Map是一些单个任务。Mapper类就是实现Map任务的类。haddop提供了一个抽象的Mapper基类,程序员需要继承这个基类,并实现其中相关的接口函数一个示例Mapper类的定义如下: public static class MyMapper extend Mapper<Object, Text ,Text ,IntWritable>①Mapper类是Hadoop提供...转载 2018-07-07 21:31:22 · 1201 阅读 · 0 评论 -
zookeeper 集群搭建
1.上传zk安装包2.解压3.配置(先在一台节点上配置)3.1添加一个zoo.cfg配置文件$ZOOKEEPER/confmv zoo_sample.cfg zoo.cfg3.2修改配置文件(zoo.cfg)initLimit=10syncLimit=5clientPort=2888tickTime=2000dataDir=/home/hadoop/software/zook...原创 2018-04-24 22:53:12 · 279 阅读 · 0 评论 -
Flume
///\\\\\\1.flume是分布式的日志收集系统,把收集来的数据传送到目的地去。2.flume里面有个核心概念,叫做agent。agent是一个java进程,运行在日志收集节点。3.agent里面包含3个核心组件:source、channel、sink。3.1 source组件是专用于收集日志的,可以处理各种类型各种格式的日志数据,包括avro、thrift、exec、jms、s...原创 2018-09-26 22:51:23 · 679 阅读 · 0 评论 -
Sqoop安装,将Mysql数据导入HDFS,Hive
sqoop安装sqoop安装:安装在一台节点上就可以了。 我下的Sqoop版本是:sqoop-1.4.7.bin__hadoop-2.6.0.tar.gz 1. 解压: tar -zxvf sqoop-1.4.7.bin__hadoop-2.6.0.tar.gz -C ~/software/sqoop 2. 添加sqoop的环境变量: sudo gedit /etc/profile...原创 2018-08-26 21:02:22 · 607 阅读 · 0 评论 -
Hadoop RPC框架解析
转自大佬的博客:https://blog.csdn.net/thomas0yang/article/details/412112591、RPC框架概述1.1 RPC(Remote Procedure Call Protocol)——远程过程调用协议,它是一种通过网络从远程计算机程序上请求服务,而不需要了解底层网络技术的协议。RPC协议假定某些传输协议的存在,如TCP或UDP,为通信程序之间...转载 2018-07-31 22:22:34 · 539 阅读 · 0 评论 -
Eclipse关联Hadoop的源码(Ubuntu系统)_安装protoc_maven下载Hadoop源码
1. 安装maven 下载 : apache-maven-3.2.5-bin.zip 配置环境变量 : MAVEN_HOME=~/software/apache-maven/apache-maven-3.2.5 Path=%MAVEN_HOME%\bin 验证是否成功: mvn -ver...原创 2018-07-31 22:15:26 · 142 阅读 · 0 评论 -
HBase集群搭建
参考文章: Hbase官方文档中文版1.上传hbase安装包2.解压3.配置hbase集群,要修改3个文件(首先zk集群已经安装好了) 注意:要把hadoop的hdfs-site.xml和core-site.xml 放到hbase/conf下 3.1修改 hbase-env.sh export JAVA_HOME=/usr/lib/jvm/java-8-openjdk-amd64 //告...原创 2018-04-24 22:39:54 · 88 阅读 · 0 评论 -
Mysql
。。。。。hadoop@Master:/etc/init.d$ sudo mysql restartERROR 1045 (28000): Access denied for user 'root'@'localhost' (using password: NO)解决办法:hadoop@Master:/etc/init.d$ cd /etc/mysqlhadoop@Master:/etc/my...原创 2018-04-24 22:52:58 · 96 阅读 · 0 评论 -
HBase shell 操作
进入hbase命令行./hbase shell显示hbase中的表list创建user表,包含info、data两个列族create 'user', 'info1', 'data1'create 'user', {NAME => 'info', VERSIONS => '3'}向user表中插入信息,row key为rk0001,列族info中添加name列标示符,值为zhangsan...原创 2018-04-24 22:57:18 · 95 阅读 · 0 评论 -
HDFS的shell命令行操作以及Java接口
例如: $ hadoop fs -ls /-help |—— 功能:输出这个命令参数手册-ls |—— 功能:显示目录信息 示例:hadoopfs−lshdfs://Master:9000/备注:这些参数中,所有的hdfs路径都可以简写,–&gt;hadoopfs−lshdfs://Master:9000/备注:这些参...原创 2018-07-30 15:40:06 · 932 阅读 · 0 评论 -
RPC通信_远程调试——Hadoop
、、、、、///////\\ RPCServer.javaimport java.io.IOException;import org.apache.hadoop.HadoopIllegalArgumentException;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.ipc.RPC;im...原创 2018-07-31 11:28:45 · 454 阅读 · 0 评论 -
基于Maven使用eclipse开发mapreduce 程序
参考文章: Maven+Eclipse+Hadoop第一个WordCount参考文章:Eclipse下Maven新建项目、自动打依赖jar包(包含普通项目和Web项目)1.安装mvn(可以省略) 1.1上传安装包到linux 1.2解压maven安装包 mkdir /usr/maven tar -zxvf apache-maven-3.2.1-bin.tar.gz -C /usr/mave...原创 2018-04-24 22:16:12 · 1164 阅读 · 0 评论