- 博客(38)
- 收藏
- 关注
原创 HDFS、MapReduce、hive、HBASE和spark常用参数设置
一、MapReduce重要配置参数1. 资源相关参数(1) mapreduce.map.memory.mb一个Map Task可使用的资源上限(单位:MB),默认为1024。如果Map Task实际使用的资源量超过该值,则会被强制杀死。(2) mapreduce.reduce.memory.mb一个Reduce Task可使用的资源上限(单位:MB),默认为1024。如果Re...
2018-09-25 20:55:09 1089
原创 Hadoop权威指南---MapReduce的工作机制
目录1、 剖析MapReduce作业运行机制 1.1、 作业的提交 1.2、 作业的初始化 1.3、 任务的分配 1.4 、任务的执行 1.5、 进度和状态的更新1.6、 作业的完成 2 、失败 2.1、 任务运行失败2.2、 application master运行失败2.3 、节点管理器运行失败 2.4 、资源管理器运行失败 ...
2018-09-25 20:27:53 723
原创 Hadoop权威指南---MapReduce的类型与格式
目录1、MapReduce的类型简介2、 输入格式 2.1、输入分片与记录 1)、FileInputFormat类2)、FileInputFormat类的输入路径3)、FileInputFormat类的输入分片4)、小文件和combineFileInputFormat5)、避免切分6)、mapper中的文件信息7)、把整个文件当成一条记录处理2.2、文本...
2018-09-23 12:01:24 312
原创 Hadoop权威指南---MapReduce应用开发
目录1、打包作业 2、 启动作业 3、 MapReduce的Web界面 3.1、资源管理器界面3.2、MapReduce作业界面4、Hadoop日志 6、 远程调试 7、作业调优8、MapReduce的工作流 8.1、 将问题分解成MapReduce作业 8.2、 关于JobControl 8.3 、关于Apache Oozie 1、打包作业...
2018-09-21 01:05:04 392
原创 通过maven的pom文件打jar包并指定jar的主类
通过在maven的pom.xml文件加入如下的代码即可指定jar文件的主类<build> <plugins> <plugin> <groupId>org.apache.maven.plugins</groupId> <arti...
2018-09-20 23:08:48 5599
原创 Hadoop权威指南---map和reduce函数使用解析
目录1、数据准备2、 Java MapReduce 2.1、map函数的实现2.2、reduce函数的实现2.3、负责运行MapReduce的代码2.4、运行测试 3、旧的和新的Java MapReduce API几个明显的区别4、数据流和combiner函数 4.1 数据流 4.2 combiner函数 4.3 Hadoop Streaming...
2018-09-19 20:52:21 12958
原创 MapReduce输出自定义序列化对象以及自定义分区Partitioner实现map函数的定向输出
目录准备数据文件flowcount.txt一、输出自定义序列化对象1、首先自定义的类需要实现Writable,实现write和readFields方法2、编写MapReduce程序二、自定义分区Partitioner实现map函数的定向输出1、自定义分区需要实现Partitioner接口的getPartition2、编写MapReduce函数准备数据文件flowco...
2018-09-18 22:46:59 950
原创 Quertz定时执行框架使用与解析
目录一、使用Quertz编写定时任务的一般步骤1、job类2、JobDetail类的xml配置3、触发器类Trigger的配置4、启动配置的定时任务xml配置二、定时任务的冲突避让三、原理解析一、使用Quertz编写定时任务的一般步骤Quertz使用Job、JobDetail、Trigger,SchedulerFactoryBean等对象来进行各种类型的任务调度...
2018-09-17 22:15:42 513
原创 Hadoop权威指南---Hadoop配置
目录1、 环境设置 1.1、内存堆大小1.2、系统日志文件2、 Hadoop守护进程的关键属性2.1、HDFS相关设置2.2、yarn相关设置2.3、yarn和MapReduce的内存设置2.4、yarn和MapReduce的CPU设置3、 Hadoop守护进程的地址和端口 4、 Hadoop的其他属性4.1、集群成员添加和移除4.2、缓冲区大小...
2018-09-16 22:19:14 388
原创 Hadoop权威指南---管理Hadoop
目录1、HDFS 1.1 永久性数据结构 1.1.1、namenode的目录结构1.1.2、文件系统镜像和编辑日志1.1.3、辅助namenode的目录结构1.1.4、DataNode的目录结构1.2 安全模式1.3 日志审计1.4 工具 1.4.1、dfsadmin1.4.2、文件系统检查工具fsck1.4.3、datanode块扫描器1.4...
2018-09-16 20:54:05 263
原创 Hadoop权威指南---HDFS简介和java API操作
目录1、HDFS的设计2、 HDFS的概念 2.1 数据块 2.2 namenode和datanode 概述2.3 块缓存 2.4 联邦HDFS 2.5 HDFS的高可用性 3、 命令行接口4、 Hadoop文件系统分类5、Java接口API5.1、增:创建文件create和write、文件夹mkdirs5.2、删:删除文件夹和文件delete...
2018-09-16 17:03:05 963
原创 Hadoop权威指南---I/O操作
目录Hadoop的I/O操作 1、数据完整性 1.1、HDFS的数据完整性 1.2、 LocalFileSystem 和 ChecksumFileSystem 2、 压缩 CompressionCodec2.1、 codec:Hadoop中对常用压缩解压缩算法的实现2.2、 压缩和输入分片2.3、 在MapReduce中使用压缩3、 序列化 Writable...
2018-09-16 12:45:03 668
原创 Hadoop权威指南---YARN
目录YARN简介一、剖析YARN应用运行机制 1、资源请求---分配机制2、应用生命期---工作模式二、 YARN与MapReduce 1相比三、 YARN中的调度 (默认的是容量调度器)1、调度器的分类2、容量调度器配置 3、公平调度器配置 4、延迟调度 5、主导资源公平性 YARN简介一、剖析YARN应用运行机制 ...
2018-09-15 14:44:37 658
原创 Hadoop权威指南.大数据的存储与分析.第4版目录
目录第Ⅰ部分 Hadoop基础知识第1章 初识Hadoop 31.1 数据!数据! 31.2 数据的存储与分析 51.3 查询所有数据 61.4 不仅仅是批处理 71.5 相较于其他系统的优势 81.5.1 关系型数据库管理系统 81.5.2 网格计算 101.5.3 志愿计算 111.6 Apache Hadoop发展简史 121.7 本书包含的内容 16第2章 关于M...
2018-09-10 10:03:53 914
原创 MapReduce统计文本单词,逆序输出统计结果
1、准备数据wordcount2.txtThey say we are what we areBut we do not have to beI am bad behavior but I do it in the best wayI will be the watcherOf the eternal flameI will be the guard dogof all y...
2018-09-09 23:48:56 2020 2
原创 MapReduce自己编写Wordcount程序
1、准备数据文件,并且上传到HDFS上,路径/input/wordcount.txtwordcount.txtHello HadoopHello BigDataHello SparkHello FlumeHello Kafka 2、编写Wordcount代码这里用户可以输入三个参数,分别为应用的名称、数据文件的路径、结果的输出路径package ls.wordc...
2018-09-09 23:07:06 3857
原创 Hadoop2.7运行自带的wordcount
目录1、准备数据文件2、把文件上传到HDFS上3、执行命令4、原理解析1、准备数据文件word1.txt i love the worldword2.txt i love the world , hello ni hao2、把文件上传到HDFS上hadoop fs -mkdir /input hadoop fs -put word1.txt /input...
2018-09-09 21:32:10 2870
原创 Hadoop1.0与Hadoop2.0的区别
1、什么是Hadoop1.0?Hadoop1.0即第一代Hadoop,指的是版本为Apache Hadoop 0.20.x、1.x或者CDH3系列的Hadoop,内核主要由HDFS和MapReduce两个系统组成,其中MapReduce是一个离线处理框架,由编程模型(新旧API)、运行时环境(JobTracker和TaskTracker)和数据处理引擎(MapTask和ReduceTask)...
2018-09-09 10:01:16 2510
原创 HDFS的block块解析
一个块信息包括:1、块id2、块大小3、时间戳4、这个快所属的文件是哪一个5、这些块都存在哪些节点上 结合HDFS的底层实现来分析: 先来看一下Block类,它含 有三个成员:blockId,numBytes和generationStamp。numBytes即block的大小,blockId是block的标识符,可以从block文件名中...
2018-09-09 00:26:10 5259
原创 HDFS上传文件后datanode元数据目录和和datanode数据目录的变化
目录1、namenode目录存储的元数据信息2、datanode存储的数据块信息3、上传一个大文件,大于128M,HDFS需要对文件进行分块存储4、问题HDFS2.7默认的块大小为128M,从下面的图中可以看出。在根目录下上传四个文件,通过web页面可以查看到:http://192.168.254.101:50070/explorer.html#/1、namenod...
2018-09-08 23:45:48 1423
原创 HDFS流式上传文件
借助工具类import org.apache.hadoop.io.IOUtils;实现直接从一个输入流往HDFS的输出流中写数据 public static void main(String[] args) throws Exception{ System.setProperty("hadoop.home.dir", "D:\\hadoop\\hadoop-2.7.3");...
2018-09-08 21:04:55 1095
原创 在Windows下的idea中访问HDFS报错 Could not locate executable null\bin\winutils.exe
18/09/08 20:18:33 ERROR util.Shell: Failed to locate the winutils binary in the hadoop binary pathjava.io.IOException: Could not locate executable null\bin\winutils.exe in the Hadoop binaries. at...
2018-09-08 20:24:14 682
原创 HDFS上传文件保存Got error, status message , ack with firstBadLink
[root@node1 ~]# hadoop fs -put test.txt /test.txt18/09/08 07:40:56 WARN util.NativeCodeLoader: Unable to load native-hadoop library for your platform... using builtin-java classes where applicable1...
2018-09-08 19:50:41 4444
原创 Hadoop2.7集群环境搭建
目录一、安装Hadoop前的准备二、安装Hadoop1、安装Hadoop2、配置Hadoop的环境变量3、修改Hadoop的配置文件4、启动1)、启动HDFS2)、启动yarn3、启动全部5、Hadoop常用命令说明三、安装过程可能遇到的问题一、安装Hadoop前的准备服务器目录约定:所有的按照文件均放在/export下/export/p...
2018-09-08 18:07:46 2096
原创 centos7安装jdk7出错No such file or directory
问题描述:在使用tar zxvf jdk-7u80-linux-x64.tar.gz -C /export/java加压按照包,然后配置环境变量后,使用java -version报错,如下:/usr/java/jdk1.7.0_71/bin/java: /lib/ld-linux.so.2: bad ELF interpreter: No such file or directory解...
2018-09-08 15:36:12 3123
原创 centos7多个节点之间实现免密钥登录
这里把node1当为主节点,node2和node3位从节点,实现在主节点免密钥登录从节点。原理:选择一台主节点机器生成公钥并存放到~/.ssh/authorized_keys中,然后把证书传输到需要免密钥登录的节点,所有含此证书信息的机器都可以被主节点机器免密码ssh访问。1、修改所有节点的/etc/hosts/192.168.254.101 node1192.168.254.10...
2018-09-08 12:30:19 3714
原创 VMware中CentOS7静态ip的设置
安装完centos7,启动后使用ifconfig命令查看不到IPV4的地址,然后进入编辑文件vi /etc/sysconfig/network-scripts/ifcfg-ens33TYPE=Ethernet#BOOTPROTO=dhcpBOOTPROTO=staticDEFROUTE=yesPEERDNS=yesPEERROUTES=yesIPV4_FAILURE_F...
2018-09-08 01:06:24 297
原创 VMware的下载安装
1、这里使用的是VMware10.0.7下载地址:https://pan.baidu.com/s/12mgUoAQFmLXsPNQx37XPhQ2、破解的序列号:0F63E-20HEM-4ZC49-RKC5M-A22HY亲测可用3、安装过程一路next默认安装即可...
2018-09-07 22:29:58 296
原创 Java I/O 的工作机制
目录1、Java 的 I/O 类库的基本架构1.1、数据流的分类1.1.1、字符流和字节流1.1.2、输入流和输出流1.1.3、节点流1.1.4、处理流1.1.5、转换流1.2、磁盘 I/O 工作机制1.3、Java Socket 的工作机制1.3.1、建立通信链路1.3.2、数据传输1.4、NIO 的工作方式1.5、I/O 调优磁盘 I/O...
2018-09-03 19:00:27 316
原创 同步、异步、阻塞与非阻塞
目录1、同步与异步1.1 、概念描述1.2 、消息通知1.3、 场景比喻2 、阻塞与非阻塞2.1 、概念描述2.2、 场景比喻3、同步/异步与阻塞/非阻塞3.1、同步阻塞形式3.2、异步阻塞形式3.3、同步非阻塞形式3.4、异步非阻塞形式4、场景比喻1、同步与异步首先来解释同步和异步的概念,这两个概念与消息的通知机制有关。也就是同步与异步...
2018-09-03 18:41:58 235 1
原创 netty权威指南---编解码技术
目录1 Java序列化的缺点2 业界主流的编解码框架2.1 Google的Protobuf介绍2.2 Facebook的Thrift介绍2.3 JBoss Marshalling介绍 第6章 编解码技术1 Java序列化的缺点java序列化通过实现Serializable接口来实现 无法跨语言 序列化后的码流太大 序列化性能太低java序列化的两...
2018-09-03 13:47:16 269
原创 netty权威指南---分隔符和定长解码器
目录1 DelimiterBasedFrameDecoder应用开发1.1 DelimiterBasedFrameDecoder服务端开发1.3 运行DelimiterBasedFrameDecoder服务端和客户端2 FixedLengthFrameDecoder应用开发2.1 FixedLengthFrameDecoder服务端开发2.2 利用telnet命令行测...
2018-09-03 11:13:06 317
原创 netty权威指南---TCP粘包/拆包问题
目录1、TCP粘包/拆包1.1 TCP粘包/拆包问题说明1.2 TCP粘包/拆包发生的原因1.3 粘包问题的解决策略2 未考虑TCP粘包导致功能异常案例2.1 TimeServer的改造2.2 TimeClient的改造2.3 运行结果3 利用LineBasedFrameDecoder解决TCP粘包问题3.1 支持TCP粘包的TimeServer...
2018-09-03 10:47:51 262
原创 netty权威指南---NIO基础
目录1、传统的BIO编程1.1、同步阻塞式I/O创建的TimeServer源码分析1.2、同步阻塞式I/O创建的TimeClient源码分析2、 伪异步I/O编程2.1、伪异步式I/O创建的TimeServer源码分析2.2、客户端代码2.3、总结3、NIO编程3.1、NIO类库简介3.2 NIO服务端序列图3.3 NIO创建的TimeServer源码...
2018-09-02 20:34:05 449
原创 netty权威指南目录
目录第一版第二版第一版目录基础篇 走进Java NIO第1章 Java的I/O演进之路1.1 I/O基础入门1.1.1 Linux网络I/O模型简介1.1.2 I/O多路复用技术1.2 Java的I/O演进1.3 总结第2章 NIO入门2.1 传统的BIO编程2.1.1 BIO通信模型图2.1.2 同步阻塞式I/O创建的TimeServer源码分析2.1....
2018-09-02 11:23:25 492
原创 netty权威指南---1网络IO模型
jdk从1.4开始引入NIO,之前都是BIOLinux网络I/O模型简介2、I/O多路复用技术1、支持一个进程打开的socket描述符(FD)不受限制(仅仅受限于操作系统的最大文件句柄数)select最大的缺陷就是单个进程所打开的FD有限制,由FD_SETSIZE设置,默认1024;而epoll并没有这个限制,远大于1024,可以通过cat /proc/s...
2018-09-02 11:21:55 163
原创 Linux下查看CPU/内存/硬盘的shell命令
1、cpu查看 1)cpu个数:#cat /proc/cpuinfo | grep "physical id" | uniq | wc -l4个cpu 2)cpu核数:#cat /proc/cpuinfo | grep "cpu cores" | uniq每个16核数 3)cpu型号:#cat /proc/cpuinfo | grep 'model nam...
2018-09-02 11:06:42 439
原创 一个http请求处理过程
1. 客户发起情况到服务器网卡; 2. 服务器网卡接受到请求后转交给内核处理; 3. 内核根据请求对应的套接字,将请求交给工作在用户空间的Web服务器进程 4. Web服务器进程根据用户请求,向内核进行系统调用,申请获取相应资源(如index.html) 5. 内核发现web服务器进程请求的是一个存放在硬盘上的资源,因此通过驱动程序连接磁盘...
2018-09-02 10:35:41 2240
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人