2018年09月_程序猿渣渣帅

原创 HDFS、MapReduce、hive、HBASE和spark常用参数设置

一、MapReduce重要配置参数1. 资源相关参数(1) mapreduce.map.memory.mb一个Map Task可使用的资源上限（单位:MB），默认为1024。如果Map Task实际使用的资源量超过该值，则会被强制杀死。(2) mapreduce.reduce.memory.mb一个Reduce Task可使用的资源上限（单位:MB），默认为1024。如果Re...

2018-09-25 20:55:09 1089

原创 Hadoop权威指南---MapReduce的工作机制

目录1、剖析MapReduce作业运行机制 1.1、作业的提交 1.2、作业的初始化 1.3、任务的分配 1.4 、任务的执行 1.5、进度和状态的更新1.6、作业的完成 2 、失败 2.1、任务运行失败2.2、 application master运行失败2.3 、节点管理器运行失败 2.4 、资源管理器运行失败 ...

2018-09-25 20:27:53 723

原创 Hadoop权威指南---MapReduce的类型与格式

目录1、MapReduce的类型简介2、输入格式 2.1、输入分片与记录 1）、FileInputFormat类2）、FileInputFormat类的输入路径3）、FileInputFormat类的输入分片4）、小文件和combineFileInputFormat5）、避免切分6）、mapper中的文件信息7）、把整个文件当成一条记录处理2.2、文本...

2018-09-23 12:01:24 312

原创 Hadoop权威指南---MapReduce应用开发

目录1、打包作业 2、启动作业 3、 MapReduce的Web界面 3.1、资源管理器界面3.2、MapReduce作业界面4、Hadoop日志 6、远程调试 7、作业调优8、MapReduce的工作流 8.1、将问题分解成MapReduce作业 8.2、关于JobControl 8.3 、关于Apache Oozie 1、打包作业...

2018-09-21 01:05:04 392

原创通过maven的pom文件打jar包并指定jar的主类

通过在maven的pom.xml文件加入如下的代码即可指定jar文件的主类<build> <plugins> <plugin> <groupId>org.apache.maven.plugins</groupId> <arti...

2018-09-20 23:08:48 5599

原创 Hadoop权威指南---map和reduce函数使用解析

目录1、数据准备2、 Java MapReduce 2.1、map函数的实现2.2、reduce函数的实现2.3、负责运行MapReduce的代码2.4、运行测试 3、旧的和新的Java MapReduce API几个明显的区别4、数据流和combiner函数 4.1 数据流 4.2 combiner函数 4.3 Hadoop Streaming...

2018-09-19 20:52:21 12958

原创 MapReduce输出自定义序列化对象以及自定义分区Partitioner实现map函数的定向输出

目录准备数据文件flowcount.txt一、输出自定义序列化对象1、首先自定义的类需要实现Writable，实现write和readFields方法2、编写MapReduce程序二、自定义分区Partitioner实现map函数的定向输出1、自定义分区需要实现Partitioner接口的getPartition2、编写MapReduce函数准备数据文件flowco...

2018-09-18 22:46:59 950

原创 Quertz定时执行框架使用与解析

目录一、使用Quertz编写定时任务的一般步骤1、job类2、JobDetail类的xml配置3、触发器类Trigger的配置4、启动配置的定时任务xml配置二、定时任务的冲突避让三、原理解析一、使用Quertz编写定时任务的一般步骤Quertz使用Job、JobDetail、Trigger,SchedulerFactoryBean等对象来进行各种类型的任务调度...

2018-09-17 22:15:42 513

原创 Hadoop权威指南---Hadoop配置

目录1、环境设置 1.1、内存堆大小1.2、系统日志文件2、 Hadoop守护进程的关键属性2.1、HDFS相关设置2.2、yarn相关设置2.3、yarn和MapReduce的内存设置2.4、yarn和MapReduce的CPU设置3、 Hadoop守护进程的地址和端口 4、 Hadoop的其他属性4.1、集群成员添加和移除4.2、缓冲区大小...

2018-09-16 22:19:14 388

原创 Hadoop权威指南---管理Hadoop

目录1、HDFS 1.1 永久性数据结构 1.1.1、namenode的目录结构1.1.2、文件系统镜像和编辑日志1.1.3、辅助namenode的目录结构1.1.4、DataNode的目录结构1.2 安全模式1.3 日志审计1.4 工具 1.4.1、dfsadmin1.4.2、文件系统检查工具fsck1.4.3、datanode块扫描器1.4...

2018-09-16 20:54:05 263

原创 Hadoop权威指南---HDFS简介和java API操作

目录1、HDFS的设计2、 HDFS的概念 2.1 数据块 2.2 namenode和datanode 概述2.3 块缓存 2.4 联邦HDFS 2.5 HDFS的高可用性 3、命令行接口4、 Hadoop文件系统分类5、Java接口API5.1、增：创建文件create和write、文件夹mkdirs5.2、删：删除文件夹和文件delete...

2018-09-16 17:03:05 963

原创 Hadoop权威指南---I／O操作

目录Hadoop的I／O操作 1、数据完整性 1.1、HDFS的数据完整性 1.2、 LocalFileSystem 和 ChecksumFileSystem 2、压缩 CompressionCodec2.1、 codec：Hadoop中对常用压缩解压缩算法的实现2.2、压缩和输入分片2.3、在MapReduce中使用压缩3、序列化 Writable...

2018-09-16 12:45:03 668

原创 Hadoop权威指南---YARN

目录YARN简介一、剖析YARN应用运行机制 1、资源请求---分配机制2、应用生命期---工作模式二、 YARN与MapReduce 1相比三、 YARN中的调度（默认的是容量调度器）1、调度器的分类2、容量调度器配置 3、公平调度器配置 4、延迟调度 5、主导资源公平性 YARN简介一、剖析YARN应用运行机制 ...

2018-09-15 14:44:37 658

原创 Hadoop权威指南.大数据的存储与分析.第4版目录

目录第Ⅰ部分 Hadoop基础知识第1章初识Hadoop 31.1 数据！数据！ 31.2 数据的存储与分析 51.3 查询所有数据 61.4 不仅仅是批处理 71.5 相较于其他系统的优势 81.5.1 关系型数据库管理系统 81.5.2 网格计算 101.5.3 志愿计算 111.6 Apache Hadoop发展简史 121.7 本书包含的内容 16第2章关于M...

2018-09-10 10:03:53 914

原创 MapReduce统计文本单词，逆序输出统计结果

1、准备数据wordcount2.txtThey say we are what we areBut we do not have to beI am bad behavior but I do it in the best wayI will be the watcherOf the eternal flameI will be the guard dogof all y...

2018-09-09 23:48:56 2020 2

原创 MapReduce自己编写Wordcount程序

1、准备数据文件,并且上传到HDFS上，路径/input/wordcount.txtwordcount.txtHello HadoopHello BigDataHello SparkHello FlumeHello Kafka 2、编写Wordcount代码这里用户可以输入三个参数，分别为应用的名称、数据文件的路径、结果的输出路径package ls.wordc...

2018-09-09 23:07:06 3857

原创 Hadoop2.7运行自带的wordcount

目录1、准备数据文件2、把文件上传到HDFS上3、执行命令4、原理解析1、准备数据文件word1.txt i love the worldword2.txt i love the world , hello ni hao2、把文件上传到HDFS上hadoop fs -mkdir /input hadoop fs -put word1.txt /input...

2018-09-09 21:32:10 2870

1、什么是Hadoop1.0？Hadoop1.0即第一代Hadoop，指的是版本为Apache Hadoop 0.20.x、1.x或者CDH3系列的Hadoop，内核主要由HDFS和MapReduce两个系统组成，其中MapReduce是一个离线处理框架，由编程模型（新旧API）、运行时环境（JobTracker和TaskTracker）和数据处理引擎（MapTask和ReduceTask）...

2018-09-09 10:01:16 2510

原创 HDFS的block块解析

一个块信息包括：1、块id2、块大小3、时间戳4、这个快所属的文件是哪一个5、这些块都存在哪些节点上结合HDFS的底层实现来分析：先来看一下Block类，它含有三个成员：blockId，numBytes和generationStamp。numBytes即block的大小，blockId是block的标识符，可以从block文件名中...

2018-09-09 00:26:10 5259

原创 HDFS上传文件后datanode元数据目录和和datanode数据目录的变化

目录1、namenode目录存储的元数据信息2、datanode存储的数据块信息3、上传一个大文件，大于128M，HDFS需要对文件进行分块存储4、问题HDFS2.7默认的块大小为128M，从下面的图中可以看出。在根目录下上传四个文件，通过web页面可以查看到：http://192.168.254.101:50070/explorer.html#/1、namenod...

2018-09-08 23:45:48 1423

原创 HDFS流式上传文件

借助工具类import org.apache.hadoop.io.IOUtils;实现直接从一个输入流往HDFS的输出流中写数据 public static void main(String[] args) throws Exception{ System.setProperty("hadoop.home.dir", "D:\\hadoop\\hadoop-2.7.3");...

2018-09-08 21:04:55 1095

原创在Windows下的idea中访问HDFS报错 Could not locate executable null\bin\winutils.exe

18/09/08 20:18:33 ERROR util.Shell: Failed to locate the winutils binary in the hadoop binary pathjava.io.IOException: Could not locate executable null\bin\winutils.exe in the Hadoop binaries. at...

2018-09-08 20:24:14 682

原创 HDFS上传文件保存Got error, status message , ack with firstBadLink

[root@node1 ~]# hadoop fs -put test.txt /test.txt18/09/08 07:40:56 WARN util.NativeCodeLoader: Unable to load native-hadoop library for your platform... using builtin-java classes where applicable1...

2018-09-08 19:50:41 4444

原创 Hadoop2.7集群环境搭建

目录一、安装Hadoop前的准备二、安装Hadoop1、安装Hadoop2、配置Hadoop的环境变量3、修改Hadoop的配置文件4、启动1）、启动HDFS2）、启动yarn3、启动全部5、Hadoop常用命令说明三、安装过程可能遇到的问题一、安装Hadoop前的准备服务器目录约定：所有的按照文件均放在/export下/export/p...

2018-09-08 18:07:46 2096

原创 centos7安装jdk7出错No such file or directory

问题描述：在使用tar zxvf jdk-7u80-linux-x64.tar.gz -C /export/java加压按照包，然后配置环境变量后，使用java -version报错，如下：/usr/java/jdk1.7.0_71/bin/java: /lib/ld-linux.so.2: bad ELF interpreter: No such file or directory解...

2018-09-08 15:36:12 3123

原创 centos7多个节点之间实现免密钥登录

这里把node1当为主节点，node2和node3位从节点，实现在主节点免密钥登录从节点。原理：选择一台主节点机器生成公钥并存放到~/.ssh/authorized_keys中，然后把证书传输到需要免密钥登录的节点，所有含此证书信息的机器都可以被主节点机器免密码ssh访问。1、修改所有节点的/etc/hosts/192.168.254.101 node1192.168.254.10...

2018-09-08 12:30:19 3714

原创 VMware中CentOS7静态ip的设置

安装完centos7，启动后使用ifconfig命令查看不到IPV4的地址，然后进入编辑文件vi /etc/sysconfig/network-scripts/ifcfg-ens33TYPE=Ethernet#BOOTPROTO=dhcpBOOTPROTO=staticDEFROUTE=yesPEERDNS=yesPEERROUTES=yesIPV4_FAILURE_F...

2018-09-08 01:06:24 297

原创 VMware的下载安装

1、这里使用的是VMware10.0.7下载地址：https://pan.baidu.com/s/12mgUoAQFmLXsPNQx37XPhQ2、破解的序列号：0F63E-20HEM-4ZC49-RKC5M-A22HY亲测可用3、安装过程一路next默认安装即可...

2018-09-07 22:29:58 296

原创 Java I/O 的工作机制

目录1、Java 的 I/O 类库的基本架构1.1、数据流的分类1.1.1、字符流和字节流1.1.2、输入流和输出流1.1.3、节点流1.1.4、处理流1.1.5、转换流1.2、磁盘 I/O 工作机制1.3、Java Socket 的工作机制1.3.1、建立通信链路1.3.2、数据传输1.4、NIO 的工作方式1.5、I/O 调优磁盘 I/O...

2018-09-03 19:00:27 316

原创同步、异步、阻塞与非阻塞

目录1、同步与异步1.1 、概念描述1.2 、消息通知1.3、场景比喻2 、阻塞与非阻塞2.1 、概念描述2.2、场景比喻3、同步/异步与阻塞/非阻塞3.1、同步阻塞形式3.2、异步阻塞形式3.3、同步非阻塞形式3.4、异步非阻塞形式4、场景比喻1、同步与异步首先来解释同步和异步的概念，这两个概念与消息的通知机制有关。也就是同步与异步...

2018-09-03 18:41:58 235 1

原创 netty权威指南---编解码技术

目录1 Java序列化的缺点2 业界主流的编解码框架2.1 Google的Protobuf介绍2.2 Facebook的Thrift介绍2.3 JBoss Marshalling介绍第6章编解码技术1 Java序列化的缺点java序列化通过实现Serializable接口来实现无法跨语言序列化后的码流太大序列化性能太低java序列化的两...

2018-09-03 13:47:16 269

原创 netty权威指南---分隔符和定长解码器

目录1 DelimiterBasedFrameDecoder应用开发1.1 DelimiterBasedFrameDecoder服务端开发1.3 运行DelimiterBasedFrameDecoder服务端和客户端2 FixedLengthFrameDecoder应用开发2.1 FixedLengthFrameDecoder服务端开发2.2 利用telnet命令行测...

2018-09-03 11:13:06 317

原创 netty权威指南---TCP粘包/拆包问题

目录1、TCP粘包/拆包1.1 TCP粘包/拆包问题说明1.2 TCP粘包/拆包发生的原因1.3 粘包问题的解决策略2 未考虑TCP粘包导致功能异常案例2.1 TimeServer的改造2.2 TimeClient的改造2.3 运行结果3 利用LineBasedFrameDecoder解决TCP粘包问题3.1 支持TCP粘包的TimeServer...

2018-09-03 10:47:51 262

原创 netty权威指南---NIO基础

目录1、传统的BIO编程1.1、同步阻塞式I/O创建的TimeServer源码分析1.2、同步阻塞式I/O创建的TimeClient源码分析2、伪异步I/O编程2.1、伪异步式I/O创建的TimeServer源码分析2.2、客户端代码2.3、总结3、NIO编程3.1、NIO类库简介3.2 NIO服务端序列图3.3 NIO创建的TimeServer源码...

2018-09-02 20:34:05 449

原创 netty权威指南目录

目录第一版第二版第一版目录基础篇走进Java NIO第1章 Java的I/O演进之路1.1 I/O基础入门1.1.1 Linux网络I/O模型简介1.1.2 I/O多路复用技术1.2 Java的I/O演进1.3 总结第2章 NIO入门2.1 传统的BIO编程2.1.1 BIO通信模型图2.1.2 同步阻塞式I/O创建的TimeServer源码分析2.1....

2018-09-02 11:23:25 492

原创 netty权威指南---1网络IO模型

jdk从1.4开始引入NIO，之前都是BIOLinux网络I/O模型简介2、I/O多路复用技术1、支持一个进程打开的socket描述符（FD）不受限制（仅仅受限于操作系统的最大文件句柄数）select最大的缺陷就是单个进程所打开的FD有限制，由FD_SETSIZE设置，默认1024；而epoll并没有这个限制，远大于1024，可以通过cat /proc/s...

2018-09-02 11:21:55 163

原创 Linux下查看CPU/内存/硬盘的shell命令

2018-09-02 11:06:42 439

原创一个http请求处理过程

1. 客户发起情况到服务器网卡； 2. 服务器网卡接受到请求后转交给内核处理； 3. 内核根据请求对应的套接字，将请求交给工作在用户空间的Web服务器进程 4. Web服务器进程根据用户请求，向内核进行系统调用，申请获取相应资源（如index.html） 5. 内核发现web服务器进程请求的是一个存放在硬盘上的资源，因此通过驱动程序连接磁盘...

2018-09-02 10:35:41 2240

空空如也

空空如也