自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(66)
  • 收藏
  • 关注

转载 微服务架构

一、 转载于:https://my.oschina.net/ittzg/blog/3082858

2019-08-02 20:09:00 210

转载 大数据框架之Kafka

一、 转载于:https://my.oschina.net/ittzg/blog/3081181

2019-07-30 15:33:00 222

转载 大数据框架之Oozie

一、 转载于:https://my.oschina.net/ittzg/blog/3079707

2019-07-26 19:04:00 222

转载 大数据框架之Flume

一、什么是FlumeFlume是Cloudera提供的一个高可用的,高可靠的,分布式的海量日志采集、聚合和传输的系统,Flume支持在日志系统中定制各类数据发送方,用于收集数据;同时,Flume提供对数据进行简单处理,并写到各种数据接受方(可定制)的能力。---摘自百度百科Flume只能...

2019-07-25 18:27:00 198

转载 elasticSearch(五)——SpringBoot集成Elasticsearch

代码下载地址:https://github.com/tazhigang/big-data-github.git代码查看地址:https://github.com/tazhigang/big-data-github/tree/master/elasticsearch-parent/spring...

2019-07-24 19:35:00 141

转载 MongoDB(四)——SpringBoot集成mongodb

代码下载地址:https://github.com/tazhigang/big-data-github.git代码查看地址:https://github.com/tazhigang/big-data-github/tree/master/mongodb-parent/springboot-m...

2019-07-22 16:37:00 153

转载 elasticSearch(四)——java操作ES的API

代码下载地址:https://github.com/tazhigang/big-data-github/tree/master/elasticsearch-parent一、pom中添加的依赖 <dependencies> <dependency&gt...

2019-07-21 15:14:00 176

转载 elasticSearch(三)——Centos7.x_64位上安装

一、安装elasticSearch(linux:192.168.0.120 ;user:es)下载elasticsearch-5.2.2.tar.gz:https://github.com/elastic/elasticsearch/releases?after=v5.2.2安装jdk8...

2019-07-21 15:13:00 100

转载 elasticSearch(二)——核心概念

一、近实时近实时,两个意思,从写入数据到数据可以被搜索到有一个小延迟(大概1秒);基于es执行搜索和分析可以达到秒级。二、Cluster(集群)集群包含多个节点,每个节点属于哪个集群是通过一个配置(集群名称,默认是elasticsearch)来决定的,对于中小型应用来说,刚开始一个...

2019-07-21 15:12:00 143

转载 elasticSearch(一)——概述

一、什么是搜索搜索,就是在任何场景下,找寻你想要的信息,这个时候,会输入一段你要搜索的关键字,然后就期望找到这个关键字相关的有些信息,在互联网里面;当提到搜索,我们首先会想到的就是百度!但是针对互联网来说很多地方都会用到搜索:比如一些电商网站、新闻网站、招聘网站、收集移动端App、OA软件...

2019-07-21 15:11:00 115

转载 分层架构及SOA架构

一、分层架构二、SOA架构 转载于:https://my.oschina.net/ittzg/blog/3076647

2019-07-20 14:26:00 694

转载 可扩展模式

一、概述硬件软件最大的区别在于,软件具有可扩展性,硬件从制造出来就不会进行改变直到硬件损坏!软件天生具有可扩展性的这一特点虽然独一无二,同样的也是他的一大难点二、可扩展思想可扩展的思想就是"拆",拆分软件系统,得到不用的架构,常见的拆分思路有三种:面向流程的拆分:将整体业务流...

2019-07-20 14:25:00 204

转载 Hive(五)——Sqoop导入数据

一、Sqoop的安装与配置下载安装包:sqoop-1.4.5-cdh5.3.6.tar.gz解压到linux指定目录备份./conf/sqoop-env-template.sh文件,cp sqoop-env-template.sh sqoop-env.sh修改配置文件:#Set ...

2019-07-19 00:39:00 116

转载 Hive(四)——Hive框架基础(二)

一、Hive创建表的方式使用create命令创建一个新表例如:create table if not exists dbname.tbname(字段) partitioned by (date string,hour string) ## 分区 row format delimi...

2019-07-17 09:04:00 120

转载 CAP

一、概述C(Consistance):一致性--对客户端来说,读操作保证能够返回最新的写操作的结果A (Availability):可用性--非故障节点在合理的时间内,返回合理的响应(不是错误和超时响应)P(Partition Tolerance):分区容错性,当出现网络反应后,系统能...

2019-07-16 23:31:00 103

转载 Hive(三)——Hive框架基础

一、Hive的MapReduce任务相关配置:<property> <name>hive.fetch.task.conversion</name> <value>more</value> <description&gt...

2019-07-14 23:13:00 186

转载 Hive(二)——Hive的安装与部署

一、安装前的说明hive相当于MapReduce的客户端,所以hive只有在hadoop环境下正常运行,这里说明一下,本博客今后的案例都会将hive安装在hadoop-ip-101的机器上hive依赖java,hadoop,mysql准备好hive的安装包:hive-0.13.1-cd...

2019-07-14 23:12:00 104

转载 Hive(一)——Hive基础知识

一、数据库与数据仓库在讲述Hive之前先了解一下数据库和数据仓库的含义数据库:是一种逻辑概念,用来存放数据的仓库,通过数据库软件来实现。数据库由很多表组成,表是二维的,一张表里面有很多字段。字段一字排开,对数据就一行一行的写入表中。数据库的表,在于能够用二维表现多维的关系。如:oracl...

2019-07-14 19:39:00 124

转载 MongoDB(三)——java集成mongodb

代码下载地址:https://github.com/tazhigang/big-data-github.git一、项目结构二、pom.xmlmongodb-parent----->pom.xml <?xml version="1.0" encoding="UTF-8"?...

2019-07-13 22:15:00 358

转载 MongoDB(二)——MongoDB的基本语法

1.进入test数据库//查看当前mongodb有哪些数据库 show dbs //进入test数据库 use test //查看当前所在的数据库名称 db 2.向数据库的user集合中插入一个文档/* db.collection.insert()...

2019-07-12 23:51:00 312

转载 MongoDB(一)——数据库的简介及MongoDB的安装

一、数据库数据库是按照数据结构来组织、存储和管理数据的仓库。我们的程序都是在内存中运行的,一旦程序运行结束或者计算机断电,程序运行中的数据都会丢失。所以我们就需要将一些程序运行的数据持久化到硬盘之中,以确保数据的安全性。而数据库就是数据持久化的最佳选择。说白了,数据库就是存储数据的...

2019-07-11 23:53:00 91

转载 Zookeeper(四)——理论篇(四)

一、客户端命令行操作启动客户端连接help :显示所有操作命令ls path [watch] :使用 ls 命令来查看当前znode中所包含的内容;如:ls /ls2 path [watch] : 查看当前节点数据并能看到更新次数等数据;如:ls2 /create : 创建节点...

2019-07-11 21:21:00 83

转载 Zookeeper(三)——理论篇(三)

一、Zk数据结构ZooKeeper数据模型的结构与Unix文件系统很类似,整体上可以看作是一棵树,每个节点称做一个ZNode。很显然zookeeper集群自身维护了一套数据结构。这个存储结构是一个树形结构,其上的每一个节点,我们称之为"znode",每一个znode默认能够存储1MB的数...

2019-07-11 20:47:00 127

转载 Zookeeper(二)——理论篇(二)

一、zookeeper集群的搭建zookeeper集群的搭建相对比较简单就是在单机的基础上增加一些配置,然后将该配置分发到其他机器上具体操作如下:将zookeeper-3.4.5.tar.gz通过sftp上传至hadoop-ip-101:/home/hadoop/soft目录下;并将压缩...

2019-07-10 22:19:00 103

转载 Zookeeper(一)——理论篇(一)

一、概述Zookeeper是一个开源的分布式的,为分布式应用提供协调服务的Apache项目。Zookeeper从设计模式角度来理解:是一个基于观察者模式设计的分布式服务管理框架,它负责存储和管理大家都关心的数据,然后接受观察者的注册,一旦这些数据的状态发生变化,Zookeeper就将负责...

2019-07-10 21:42:00 88

转载 Hadoop(十八)——hadoop之MapReduce理论篇(九)——MapReduce参数优化

一、资源相关参数 1.以下参数是在用户自己的mr应用程序中配置就可以生效 配置参数 参数说明 mapreduce.map.memory.mb 一个Map Task可使用的资源上限(单位:MB),默认为10...

2019-07-08 23:12:00 263

转载 大数据案例(九)——自定义Outputformat

代码下载地址:https://github.com/tazhigang/big-data-github.git一、概述要在一个mapreduce程序中根据数据的不同输出两类结果到不同目录,这类灵活的输出需求可以通过自定义outputformat来实现。自定义outputformat,...

2019-07-07 23:43:00 294

转载 大数据案例(八)——自定义Inputformat

代码下载地址:https://github.com/tazhigang/big-data-github.git一、概述自定义一个InputFormat改写RecordReader,实现一次读取一个完整文件封装为KV在输出时使用SequenceFileOutPutFormat输出合并文...

2019-07-07 21:21:00 201

转载 大数据案例(七)——MapReduce之map端表合并(Distributedcache)

代码下载地址:https://github.com/tazhigang/big-data-github.git一、前期准备由于本案例是在案例六的基础上做的优化,所以需求及数据输入输出请参考案例六;初次之外需要拷贝pd.txt文件在本地电脑J盘的根目录下以做参考本案例只需要上传order...

2019-07-07 12:24:00 151

转载 大数据案例(六)——MapReduce之reduce端表合并(数据倾斜)

代码下载地址:https://github.com/tazhigang/big-data-github.git一、需求:将商品信息表中数据根据商品id合并到订单数据表中二、数据准备数据准备: ==============================order.txt=======...

2019-07-07 11:59:00 202

转载 大数据案例(五)——MapReduce求出每一个订单中最贵的商品

代码下载地址:https://github.com/tazhigang/big-data-github.git一、需求:求出每一个订单中最贵的商品二、数据准备数据准备 Order_0000001 Pdt_01 222.8 Order_0000002 Pdt_05 722.4 O...

2019-07-07 11:20:00 1018

转载 大数据案例(四)——MapReduce将文件按照订单号分成若干个小文件

代码下载地址:https://github.com/tazhigang/big-data-github.git一、需求:将文件按照订单号分成若干个小文件二、数据准备数据准备 Order_0000001 Pdt_01 222.8 Order_0000002 Pdt_05 722.4...

2019-07-07 11:09:00 287

转载 大数据案例(三)——MapReduce实现流量统计案例-分区

代码下载地址:https://github.com/tazhigang/big-data-github.git一、需求:将统计结果按照手机归属地不同省份输出到不同文件中(分区)二、数据准备数据准备:案例二中的phoneData.txt根据电话号码的前三位分区三、创建maven项目...

2019-07-06 14:19:00 561

转载 Hadoop(十七)——hadoop之MapReduce理论篇(八)—— MapReduce与Yarn

一、Yarn概述Yarn是一个资源调度平台,负责为运算程序提供服务器运算资源,相当于一个分布式的操作系统平台,而mapreduce等运算程序则相当于运行于操作系统之上的应用程序二、Yarn的重要概念Yarn并不清楚用户提交的程序的运行机制Yarn只提供运算资源的调度(用户程序向Yar...

2019-07-05 22:47:00 155

转载 Hadoop(十六)——hadoop之MapReduce理论篇(七)——MapReduce数据压缩

一、 概述压缩技术能够有效减少底层存储系统(HDFS)读写字节数。压缩提高了网络带宽和磁盘空间的效率。在Hadood下,尤其是数据规模很大和工作负载密集的情况下,使用数据压缩显得非常重要。在这种情况下,I/O操作和网络数据传输要花大量的时间。还有,Shuffle与Merge过程同样也面临着...

2019-07-05 22:46:00 151

转载 Hadoop(十五)——hadoop之MapReduce理论篇(六)—— ReduceTask工作机制

一、设置ReduceTaskreducetask的并行度同样影响整个job的执行并发度和执行效率,但与maptask的并发数由切片数决定不同,Reducetask数量的决定是可以直接手动设置://默认值是1,手动设置为4job.setNumReduceTasks(4);二、注意如...

2019-07-04 23:06:00 171

转载 Hadoop(十三)——hadoop之MapReduce理论篇(四)—— MapTask工作机制

一、问题引出maptask的并行度决定map阶段的任务处理并发度,进而影响到整个job的处理速度。那么,mapTask并行任务是否越多越好呢?二、MapTask并行度决定机制一个job的map阶段MapTask并行度(个数),由客户端提交job时的切片个数决定。三、MapTask工作机...

2019-07-04 23:05:00 121

转载 Hadoop(十四)——hadoop之MapReduce理论篇(五)——MapReduce详细工作流程

一、Shuffle机制Mapreduce确保每个reducer的输入都是按键排序的。系统执行排序的过程(即将map输出作为输入传给reducer)称为shuffle。二、MapReduce工作流程1.图示流程2.流程详解上面的流程是整个mapreduce最全工作流程,但是shuff...

2019-07-04 23:05:00 226

转载 Hadoop(十二)——hadoop之MapReduce理论篇(三)—— FileInputFormat源码解析及切片规则详解...

一、源码 public List<InputSplit> getSplits(JobContext job) throws IOException { long minSize = Math.max(this.getFormatMinSplitSize(), ge...

2019-07-03 00:49:00 336

转载 Hadoop(十一)——hadoop之MapReduce理论篇(二)—— job的提交流程源码分析

一、job提交过程源码分析1. 调用job.waitForCompletion(true)源码查看/** * 1. @Param verbose:true表示将运行进度等信息及时输出给用户,false的话只是等待作业结束 * 2. public static enum JobState...

2019-07-03 00:48:00 314

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除