自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

l1394049664的博客

技术、生活、观点、个人成长。 主要关注互联网电商广告业务、数据分析方法论、大数据分析平台建设;java web、分布式、大数据处理以及可视化等相关技术。

  • 博客(38)
  • 收藏
  • 关注

原创 HDFS、MapReduce、hive、HBASE和spark常用参数设置

一、MapReduce重要配置参数1.  资源相关参数(1) mapreduce.map.memory.mb一个Map Task可使用的资源上限(单位:MB),默认为1024。如果Map Task实际使用的资源量超过该值,则会被强制杀死。(2) mapreduce.reduce.memory.mb一个Reduce Task可使用的资源上限(单位:MB),默认为1024。如果Re...

2018-09-25 20:55:09 1089

原创 Hadoop权威指南---MapReduce的工作机制

目录1、 剖析MapReduce作业运行机制 ​1.1、 作业的提交 ​1.2、 作业的初始化 ​1.3、 任务的分配 ​1.4 、任务的执行 1.5、 进度和状态的更新​1.6、 作业的完成 ​2 、失败 2.1、 任务运行失败​2.2、 application master运行失败​2.3 、节点管理器运行失败 ​2.4 、资源管理器运行失败 ...

2018-09-25 20:27:53 723

原创 Hadoop权威指南---MapReduce的类型与格式

目录1、MapReduce的类型简介2、 输入格式 2.1、输入分片与记录 1)、FileInputFormat类2)、FileInputFormat类的输入路径3)、FileInputFormat类的输入分片4)、小文件和combineFileInputFormat5)、避免切分6)、mapper中的文件信息7)、把整个文件当成一条记录处理2.2、文本...

2018-09-23 12:01:24 312

原创 Hadoop权威指南---MapReduce应用开发

目录1、打包作业 2、 启动作业 3、 MapReduce的Web界面 3.1、资源管理器界面3.2、MapReduce作业界面​4、Hadoop日志 6、 远程调试 7、作业调优8、MapReduce的工作流 8.1、 将问题分解成MapReduce作业 ​8.2、 关于JobControl 8.3 、关于Apache Oozie 1、打包作业...

2018-09-21 01:05:04 392

原创 通过maven的pom文件打jar包并指定jar的主类

通过在maven的pom.xml文件加入如下的代码即可指定jar文件的主类<build>        <plugins>            <plugin>                <groupId>org.apache.maven.plugins</groupId>                <arti...

2018-09-20 23:08:48 5599

原创 Hadoop权威指南---map和reduce函数使用解析

目录1、数据准备2、  Java MapReduce 2.1、map函数的实现2.2、reduce函数的实现2.3、负责运行MapReduce的代码2.4、运行测试 3、旧的和新的Java MapReduce API几个明显的区别4、数据流和combiner函数 4.1  数据流 4.2  combiner函数 4.3  Hadoop Streaming...

2018-09-19 20:52:21 12958

原创 MapReduce输出自定义序列化对象以及自定义分区Partitioner实现map函数的定向输出

目录准备数据文件flowcount.txt一、输出自定义序列化对象1、首先自定义的类需要实现Writable,实现write和readFields方法2、编写MapReduce程序二、自定义分区Partitioner实现map函数的定向输出1、自定义分区需要实现Partitioner接口的getPartition2、编写MapReduce函数准备数据文件flowco...

2018-09-18 22:46:59 950

原创 Quertz定时执行框架使用与解析

目录一、使用Quertz编写定时任务的一般步骤1、job类2、JobDetail类的xml配置3、触发器类Trigger的配置4、启动配置的定时任务xml配置二、定时任务的冲突避让三、原理解析一、使用Quertz编写定时任务的一般步骤Quertz使用Job、JobDetail、Trigger,SchedulerFactoryBean等对象来进行各种类型的任务调度...

2018-09-17 22:15:42 513

原创 Hadoop权威指南---Hadoop配置

目录1、 环境设置 1.1、内存堆大小1.2、系统日志文件2、 Hadoop守护进程的关键属性2.1、HDFS相关设置2.2、yarn相关设置2.3、yarn和MapReduce的内存设置2.4、yarn和MapReduce的CPU设置3、 Hadoop守护进程的地址和端口 4、 Hadoop的其他属性4.1、集群成员添加和移除4.2、缓冲区大小...

2018-09-16 22:19:14 388

原创 Hadoop权威指南---管理Hadoop

目录1、HDFS 1.1 永久性数据结构 1.1.1、namenode的目录结构1.1.2、文件系统镜像和编辑日志1.1.3、辅助namenode的目录结构1.1.4、DataNode的目录结构1.2 安全模式1.3 日志审计​1.4 工具 1.4.1、dfsadmin1.4.2、文件系统检查工具fsck1.4.3、datanode块扫描器1.4...

2018-09-16 20:54:05 263

原创 Hadoop权威指南---HDFS简介和java API操作

目录1、HDFS的设计2、 HDFS的概念 2.1 数据块 2.2 namenode和datanode 概述2.3 块缓存 ​2.4 联邦HDFS 2.5 HDFS的高可用性 3、 命令行接口4、 Hadoop文件系统分类5、Java接口API5.1、增:创建文件create和write、文件夹mkdirs5.2、删:删除文件夹和文件delete...

2018-09-16 17:03:05 963

原创 Hadoop权威指南---I/O操作

目录Hadoop的I/O操作 1、数据完整性 1.1、HDFS的数据完整性 1.2、 LocalFileSystem 和 ChecksumFileSystem 2、 压缩 CompressionCodec2.1、 codec:Hadoop中对常用压缩解压缩算法的实现2.2、 压缩和输入分片2.3、 在MapReduce中使用压缩​3、 序列化 Writable...

2018-09-16 12:45:03 668

原创 Hadoop权威指南---YARN

目录YARN简介​一、剖析YARN应用运行机制 ​1、资源请求---分配机制​​2、应用生命期---工作模式二、 YARN与MapReduce 1相比三、 YARN中的调度 (默认的是容量调度器)1、调度器的分类2、容量调度器配置 ​​​3、公平调度器配置 4、延迟调度 5、主导资源公平性 YARN简介一、剖析YARN应用运行机制 ...

2018-09-15 14:44:37 658

原创 Hadoop权威指南.大数据的存储与分析.第4版目录

目录第Ⅰ部分 Hadoop基础知识第1章 初识Hadoop 31.1 数据!数据! 31.2 数据的存储与分析 51.3 查询所有数据 61.4 不仅仅是批处理 71.5 相较于其他系统的优势 81.5.1 关系型数据库管理系统 81.5.2 网格计算 101.5.3 志愿计算 111.6 Apache Hadoop发展简史 121.7 本书包含的内容 16第2章 关于M...

2018-09-10 10:03:53 914

原创 MapReduce统计文本单词,逆序输出统计结果

1、准备数据wordcount2.txtThey say we are what we areBut we do not have to beI am bad behavior but I do it in the best wayI will be the watcherOf the eternal flameI will be the guard dogof all y...

2018-09-09 23:48:56 2020 2

原创 MapReduce自己编写Wordcount程序

1、准备数据文件,并且上传到HDFS上,路径/input/wordcount.txtwordcount.txtHello HadoopHello BigDataHello SparkHello FlumeHello Kafka 2、编写Wordcount代码这里用户可以输入三个参数,分别为应用的名称、数据文件的路径、结果的输出路径package ls.wordc...

2018-09-09 23:07:06 3857

原创 Hadoop2.7运行自带的wordcount

目录1、准备数据文件2、把文件上传到HDFS上3、执行命令4、原理解析1、准备数据文件word1.txt i love the worldword2.txt i love the world , hello ni hao2、把文件上传到HDFS上hadoop fs -mkdir /input hadoop fs -put word1.txt /input...

2018-09-09 21:32:10 2870

原创 Hadoop1.0与Hadoop2.0的区别

1、什么是Hadoop1.0?Hadoop1.0即第一代Hadoop,指的是版本为Apache Hadoop 0.20.x、1.x或者CDH3系列的Hadoop,内核主要由HDFS和MapReduce两个系统组成,其中MapReduce是一个离线处理框架,由编程模型(新旧API)、运行时环境(JobTracker和TaskTracker)和数据处理引擎(MapTask和ReduceTask)...

2018-09-09 10:01:16 2510

原创 HDFS的block块解析

一个块信息包括:1、块id2、块大小3、时间戳4、这个快所属的文件是哪一个5、这些块都存在哪些节点上  结合HDFS的底层实现来分析: 先来看一下Block类,它含 有三个成员:blockId,numBytes和generationStamp。numBytes即block的大小,blockId是block的标识符,可以从block文件名中...

2018-09-09 00:26:10 5259

原创 HDFS上传文件后datanode元数据目录和和datanode数据目录的变化

目录1、namenode目录存储的元数据信息2、datanode存储的数据块信息3、上传一个大文件,大于128M,HDFS需要对文件进行分块存储4、问题HDFS2.7默认的块大小为128M,从下面的图中可以看出。在根目录下上传四个文件,通过web页面可以查看到:http://192.168.254.101:50070/explorer.html#/1、namenod...

2018-09-08 23:45:48 1423

原创 HDFS流式上传文件

借助工具类import org.apache.hadoop.io.IOUtils;实现直接从一个输入流往HDFS的输出流中写数据 public static void main(String[] args) throws Exception{ System.setProperty("hadoop.home.dir", "D:\\hadoop\\hadoop-2.7.3");...

2018-09-08 21:04:55 1095

原创 在Windows下的idea中访问HDFS报错 Could not locate executable null\bin\winutils.exe

18/09/08 20:18:33 ERROR util.Shell: Failed to locate the winutils binary in the hadoop binary pathjava.io.IOException: Could not locate executable null\bin\winutils.exe in the Hadoop binaries.    at...

2018-09-08 20:24:14 682

原创 HDFS上传文件保存Got error, status message , ack with firstBadLink

[root@node1 ~]# hadoop fs -put test.txt  /test.txt18/09/08 07:40:56 WARN util.NativeCodeLoader: Unable to load native-hadoop library for your platform... using builtin-java classes where applicable1...

2018-09-08 19:50:41 4444

原创 Hadoop2.7集群环境搭建

目录一、安装Hadoop前的准备二、安装Hadoop1、安装Hadoop2、配置Hadoop的环境变量3、修改Hadoop的配置文件4、启动1)、启动HDFS2)、启动yarn3、启动全部5、Hadoop常用命令说明三、安装过程可能遇到的问题一、安装Hadoop前的准备服务器目录约定:所有的按照文件均放在/export下/export/p...

2018-09-08 18:07:46 2096

原创 centos7安装jdk7出错No such file or directory

问题描述:在使用tar zxvf jdk-7u80-linux-x64.tar.gz -C /export/java加压按照包,然后配置环境变量后,使用java -version报错,如下:/usr/java/jdk1.7.0_71/bin/java: /lib/ld-linux.so.2: bad ELF interpreter: No such file or directory解...

2018-09-08 15:36:12 3123

原创 centos7多个节点之间实现免密钥登录

这里把node1当为主节点,node2和node3位从节点,实现在主节点免密钥登录从节点。原理:选择一台主节点机器生成公钥并存放到~/.ssh/authorized_keys中,然后把证书传输到需要免密钥登录的节点,所有含此证书信息的机器都可以被主节点机器免密码ssh访问。1、修改所有节点的/etc/hosts/192.168.254.101 node1192.168.254.10...

2018-09-08 12:30:19 3714

原创 VMware中CentOS7静态ip的设置

安装完centos7,启动后使用ifconfig命令查看不到IPV4的地址,然后进入编辑文件vi    /etc/sysconfig/network-scripts/ifcfg-ens33TYPE=Ethernet#BOOTPROTO=dhcpBOOTPROTO=staticDEFROUTE=yesPEERDNS=yesPEERROUTES=yesIPV4_FAILURE_F...

2018-09-08 01:06:24 297

原创 VMware的下载安装

1、这里使用的是VMware10.0.7下载地址:https://pan.baidu.com/s/12mgUoAQFmLXsPNQx37XPhQ2、破解的序列号:0F63E-20HEM-4ZC49-RKC5M-A22HY亲测可用3、安装过程一路next默认安装即可...

2018-09-07 22:29:58 296

原创 Java I/O 的工作机制

目录1、Java 的 I/O 类库的基本架构1.1、数据流的分类1.1.1、字符流和字节流1.1.2、输入流和输出流1.1.3、节点流1.1.4、处理流1.1.5、转换流1.2、磁盘 I/O 工作机制1.3、Java Socket 的工作机制1.3.1、建立通信链路1.3.2、数据传输1.4、NIO 的工作方式1.5、I/O 调优磁盘 I/O...

2018-09-03 19:00:27 316

原创 同步、异步、阻塞与非阻塞

目录1、同步与异步1.1 、概念描述1.2 、消息通知1.3、 场景比喻2 、阻塞与非阻塞2.1 、概念描述2.2、 场景比喻3、同步/异步与阻塞/非阻塞3.1、同步阻塞形式3.2、异步阻塞形式3.3、同步非阻塞形式3.4、异步非阻塞形式4、场景比喻1、同步与异步首先来解释同步和异步的概念,这两个概念与消息的通知机制有关。也就是同步与异步...

2018-09-03 18:41:58 235 1

原创 netty权威指南---编解码技术

目录​1 Java序列化的缺点2 业界主流的编解码框架2.1 Google的Protobuf介绍2.2 Facebook的Thrift介绍2.3 JBoss Marshalling介绍 第6章 编解码技术1 Java序列化的缺点java序列化通过实现Serializable接口来实现 无法跨语言 序列化后的码流太大  序列化性能太低java序列化的两...

2018-09-03 13:47:16 269

原创 netty权威指南---分隔符和定长解码器

目录​1 DelimiterBasedFrameDecoder应用开发1.1 DelimiterBasedFrameDecoder服务端开发1.3 运行DelimiterBasedFrameDecoder服务端和客户端2 FixedLengthFrameDecoder应用开发2.1 FixedLengthFrameDecoder服务端开发2.2 利用telnet命令行测...

2018-09-03 11:13:06 317

原创 netty权威指南---TCP粘包/拆包问题

目录1、TCP粘包/拆包1.1 TCP粘包/拆包问题说明​1.2 TCP粘包/拆包发生的原因​1.3 粘包问题的解决策略​2 未考虑TCP粘包导致功能异常案例2.1 TimeServer的改造2.2 TimeClient的改造2.3 运行结果​3 利用LineBasedFrameDecoder解决TCP粘包问题3.1 支持TCP粘包的TimeServer...

2018-09-03 10:47:51 262

原创 netty权威指南---NIO基础

目录1、传统的BIO编程1.1、同步阻塞式I/O创建的TimeServer源码分析1.2、同步阻塞式I/O创建的TimeClient源码分析2、 伪异步I/O编程​2.1、伪异步式I/O创建的TimeServer源码分析2.2、客户端代码2.3、总结3、NIO编程3.1、NIO类库简介3.2 NIO服务端序列图3.3 NIO创建的TimeServer源码...

2018-09-02 20:34:05 449

原创 netty权威指南目录

目录第一版第二版第一版目录基础篇 走进Java NIO第1章 Java的I/O演进之路1.1 I/O基础入门1.1.1 Linux网络I/O模型简介1.1.2 I/O多路复用技术1.2 Java的I/O演进1.3 总结第2章 NIO入门2.1 传统的BIO编程2.1.1 BIO通信模型图2.1.2 同步阻塞式I/O创建的TimeServer源码分析2.1....

2018-09-02 11:23:25 492

原创 netty权威指南---1网络IO模型

jdk从1.4开始引入NIO,之前都是BIOLinux网络I/O模型简介2、I/O多路复用技术1、支持一个进程打开的socket描述符(FD)不受限制(仅仅受限于操作系统的最大文件句柄数)select最大的缺陷就是单个进程所打开的FD有限制,由FD_SETSIZE设置,默认1024;而epoll并没有这个限制,远大于1024,可以通过cat /proc/s...

2018-09-02 11:21:55 163

原创 Linux下查看CPU/内存/硬盘的shell命令

1、cpu查看    1)cpu个数:#cat /proc/cpuinfo | grep "physical id" | uniq | wc -l4个cpu     2)cpu核数:#cat /proc/cpuinfo | grep "cpu cores" | uniq每个16核数     3)cpu型号:#cat /proc/cpuinfo | grep 'model nam...

2018-09-02 11:06:42 439

原创 一个http请求处理过程

     1. 客户发起情况到服务器网卡;    2. 服务器网卡接受到请求后转交给内核处理;    3. 内核根据请求对应的套接字,将请求交给工作在用户空间的Web服务器进程    4. Web服务器进程根据用户请求,向内核进行系统调用,申请获取相应资源(如index.html)    5. 内核发现web服务器进程请求的是一个存放在硬盘上的资源,因此通过驱动程序连接磁盘...

2018-09-02 10:35:41 2240

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除