![](https://img-blog.csdnimg.cn/20201014180756923.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
Hadoop
q435201823
11
展开
-
Struts2 下载功能以及乱码问题
下载功能index.jsp首先你要有一个按钮。(我这里是动态获取文件,所以有一个num)<button class="btn btn-default" type="button" onclick="downloadfile(num)">下载</button>";JavaScript使用window.open访问action,并带参数,为需要下载的文件名。(我的文...原创 2020-05-08 16:48:30 · 120 阅读 · 0 评论 -
Hive 3.1.1安装与配置
前言:hive的水贼深,安装其他教程安装报了很多错。如果有错误的地方,欢迎大家留言。环境linux18.04Hadoop3.2.0mysql8.0.12hive3.1.1安装Mysql在Linux上安装mysql之前的博客写过mysql的安装了。这里不再赘述。下载hive直接在官网载http://www.apache.org/dyn/closer.cgi/hive/配置环境...原创 2019-02-24 17:28:24 · 1799 阅读 · 0 评论 -
HBase安装与配置
环境:Hadoop3.2.0ZooKeeper3.4.13Hbase1.2.6前言之前装过hbase,装的是最新的版本2.1.3但是…出问题了。说是文件系统不支持hsyc一查才知道,hbase和hadoop还有兼容性的问题http://hbase.apache.org/book.html#basic.prerequisites大家可以在说明文档里面看到兼容性说明现在情况是这样...原创 2019-02-26 14:40:38 · 229 阅读 · 0 评论 -
kafka java api客户端编程
环境Ubuntu18.04zookeeper3.4.13kafka2.1.1说明因为是使用了最新的kafka,所以很多方法都过时了。研究了很久新api的用法,然后在此记录。zkUtil已经不用了,改用AdminClient。主要功能包括:创建Topic:createTopics(Collection newTopics)删除Topic:deleteTopics(Collectio...原创 2019-03-02 15:46:10 · 361 阅读 · 2 评论 -
[转载]Kafka生产者事务和幂等
转载自:http://www.heartthinkdo.com/?p=2040 目录 [隐藏]1 生产者幂等性1.1 引入1.2 幂等性实现1.2.1 PID 和 Sequence Number1.2.2 生成PID的流程1.3 幂等性的应用实例2 事务属性2.1 事务属性理解2.2 引入事务目的2.3 事务操作的API3 事务属性的...转载 2019-03-02 16:49:24 · 186 阅读 · 0 评论 -
kafka 生产者的幂等简单实现
关于幂等性可以看我上一篇转载的文章普通的生产者public static void upload() { Producer<String, String> producer = new KafkaProducer<>(props); for (int i = 0; i < 100; i++) producer.send(ne...原创 2019-03-02 17:05:56 · 580 阅读 · 0 评论 -
Storm安装与配置
环境Ubuntu18.04四台机器:Ubuntu1,Ubuntu2,Ubuntu3,Ubuntu4ZooKeeper3.4.13storm1.2.2下载Storm官方下载地址设置Zookeeper集群ZooKeeper安装与配置安装依赖项1.Java 7+2.Python 2.6.6(Python 3.x也应该工作,但不作为CI环境的一部分进行测试)配置storm的配置文...原创 2019-02-26 20:30:43 · 756 阅读 · 0 评论 -
Hbase API 编程
记录常用的一些Hbase APIpackage datacool.hadoop.hbase;import java.io.IOException;import java.util.ArrayList;import java.util.List;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.f...原创 2019-03-14 19:49:12 · 390 阅读 · 0 评论 -
Flume安装与配置
环境Ubuntu18.04Flume1.9.0Kafka2.1.1下载Flume下载解压先找个地方建个文件夹mkdir flume解压到文件夹中tar -zxvf apache-flume-1.9.0-bin.tar.gz -C ~/flume设置环境变量编辑profilesudo vim /etc/profile直接将我的环境变量贴出来,不赘述了。使其生效...原创 2019-03-14 20:22:29 · 392 阅读 · 0 评论 -
Storm1.2.2整合Kafka2.1.1编程
前言Storm到1版本后发送了很大的变化,很多api都有很多改变。然而网络上的多数教程都是旧版本的api。导致了这一部分的编程花了我非常非常多的时间阅读官方文档的github上的程序。而且某些错误是真的难debug。本文只写一个简单的读取kafka消息的demo因为编程是简单的,麻烦的是编程之外的细节。至于编程的问题可以参考官方在github上的example在storm目录里面也能...原创 2019-03-07 16:07:33 · 2467 阅读 · 3 评论 -
ZooKeeper安装与配置
下载先去官网下一个ZooKeeper安装包。我这里是zookeeper-3.4.13.tar解压我的用户是czq首先在/home/czq/下新建一个ZooKeeper目录mkdir zookeeper然后进入安装包所在的目录tar -zxvf zookeeper-3.4.13.tar.gz -C ~/zookeeper配置进入ZooKeeper目录可以看到一个conf,里面...原创 2019-02-18 16:45:39 · 1645 阅读 · 0 评论 -
kafka 安装与配置
环境Ubuntu18.04四台机器:Ubuntu1,Ubuntu2,Ubuntu3,Ubuntu4ZooKeeper3.4.13kafka_2.12-2.1.1下载kafkakafka下载地址安装并启动ZooKeeperZooKeeper安装与配置解压kafkatar -zxvf kafka_2.12-2.1.1.tgz -C ~/kafka配置kafka配置文件在kaf...原创 2019-02-27 21:14:27 · 212 阅读 · 0 评论 -
Hadoop Ha(高可用) 方案 配置和安装
1启动zookeeper2.启动journalnodehdfs --daemon.sh start journalnode原创 2019-02-21 23:38:48 · 265 阅读 · 0 评论 -
java API操作hdfs上的文件上传下载
文件上传package hadoop.hdfs;import java.io.FileInputStream;import java.io.FileOutputStream;import java.io.IOException;import java.net.URI;import java.net.URISyntaxException;import org.apache.comm...原创 2019-02-05 23:33:29 · 916 阅读 · 1 评论 -
java API操作hdfs新建文件夹
需要注意的:1.mkdirs可以在深度上新建多个文件夹。2.在配置中已经定义了uri,所以mkdirs中可以不写hdfs://nodename/package hadoop.hdfs;import java.io.FileInputStream;import java.io.FileOutputStream;import java.io.IOException;import jav...原创 2019-02-05 23:53:03 · 2662 阅读 · 0 评论 -
java API操作hdfs删除文件或文件夹
需要注意的:FileSystem.delete(Path f)方法以及过时不用了,建议使用FileSystem.delete(Path f, boolean recursive) 。recursive为是否递归删除。package hadoop.hdfs;import java.io.FileInputStream;import java.io.FileOutputStream;im...原创 2019-02-06 00:12:59 · 9142 阅读 · 1 评论 -
java API操作hdfs查看目录
需要注意的:第一个程序只会获取文件,不获取文件夹。第二个会获取文件以及文件夹package hadoop.hdfs;import java.io.FileInputStream;import java.io.FileOutputStream;import java.io.IOException;import java.net.URI;import java.net.URISynt...原创 2019-02-09 19:55:42 · 3389 阅读 · 0 评论 -
Hadoop RPC的简单实现
RPC的基础概念RPC,即位Remote Procdure Call,远程过程调度。允许一台计算机远程调用另一台计算机的子程序。并且不用关心底层网络细节。RPC是采用了C/S模式的,故而需要写Server和Client两个端。RPC的简单实现首先写Server端1.定义对外提供的服务接口package hadoop.rpc;public interface LoginServic...原创 2019-02-09 20:59:34 · 259 阅读 · 0 评论 -
Hadoop的三种运行模式
Hadoop的三种运行模式 :1.独立(本地)运行模式:无需任何守护进程,所有的程序都运行在同一个JVM上执行。在独立模式下调试MR程序非常高效方便。所以一般该模式主要是在学习或者开发阶段调试使用 。2.伪分布式模式: Hadoop守护进程运行在本地机器上,模拟一个小规模的集群,换句话说,可以配置一台机器的Hadoop集群,伪分布式是完全分布式的一个特例。3.完全分布式模式:Hadoop守...原创 2019-02-09 22:21:46 · 6594 阅读 · 0 评论 -
MapReduce编程实践-WordCount
Mapperpackage hadoop.mr.wordcount;import java.io.IOException;import org.apache.commons.lang3.StringUtils;import org.apache.hadoop.io.LongWritable;import org.apache.hadoop.io.Text;import org.ap...原创 2019-02-09 23:18:36 · 331 阅读 · 0 评论 -
浅谈Hadoop的序列化机制
什么是序列化序列化是指将结构化对象转换成字节流以便于进行网络传输或写入持久存储的过程。什么是反序列化将字节流转换为特定结构化对象的过程。为什么使用Hadoop的序列化机制,而不是用java序列化机制Hadoop的数据较为简单,没有继承关系,故而不需要java那种复杂的序列化机制。Hadoop提供更加精简的序列化机制可以减少资源消耗以及传输更少的数据,提高效率。Hadoop序列化Had...原创 2019-02-10 14:12:33 · 487 阅读 · 0 评论 -
浅谈Hadoop shuffle
map task部分1.map读取split输入数据。2.map处理数据生成key-value。3.key-value存入内存中的buffer。4.buffer默认100M(io.sort.mb),当buffer中数据很多超过一个阀值(默认0.8,io.sort.spill.percent),后台将有一个线程(spill)将buffer中数据写入磁盘,存入指定地址(mapred.loca...原创 2019-02-10 14:49:19 · 139 阅读 · 0 评论 -
Hadoop安装与配置
前言使用的环境:Ubuntu18.04.1 LTS+Windows双系统(故而不是安装在虚拟机上的)Hadoop3.2.0(因为选择了当下比较新的版本所以也是有些东西和之前不同)JDK1.8.0_201下载JDK进Oracle官网下载JDK接受协议后选择自己的系统下载jdk,我是64位所以就选64位了。下载后解压到/usr/lib下tar -zxvf jdk-8u181-linu...原创 2019-02-05 01:49:48 · 246 阅读 · 0 评论