chouniti9651-CSDN博客

转载微服务架构

一、转载于:https://my.oschina.net/ittzg/blog/3082858

2019-08-02 20:09:00 210

转载大数据框架之Kafka

一、转载于:https://my.oschina.net/ittzg/blog/3081181

2019-07-30 15:33:00 222

转载大数据框架之Oozie

一、转载于:https://my.oschina.net/ittzg/blog/3079707

2019-07-26 19:04:00 222

转载大数据框架之Flume

一、什么是FlumeFlume是Cloudera提供的一个高可用的，高可靠的，分布式的海量日志采集、聚合和传输的系统，Flume支持在日志系统中定制各类数据发送方，用于收集数据；同时，Flume提供对数据进行简单处理，并写到各种数据接受方（可定制）的能力。---摘自百度百科Flume只能...

2019-07-25 18:27:00 198

转载 elasticSearch（五）——SpringBoot集成Elasticsearch

代码下载地址：https://github.com/tazhigang/big-data-github.git代码查看地址：https://github.com/tazhigang/big-data-github/tree/master/elasticsearch-parent/spring...

2019-07-24 19:35:00 141

转载 MongoDB(四)——SpringBoot集成mongodb

代码下载地址：https://github.com/tazhigang/big-data-github.git代码查看地址：https://github.com/tazhigang/big-data-github/tree/master/mongodb-parent/springboot-m...

2019-07-22 16:37:00 153

转载 elasticSearch（四）——java操作ES的API

代码下载地址：https://github.com/tazhigang/big-data-github/tree/master/elasticsearch-parent一、pom中添加的依赖 <dependencies> <dependency&gt...

2019-07-21 15:14:00 176

转载 elasticSearch（三）——Centos7.x_64位上安装

一、安装elasticSearch（linux:192.168.0.120 ;user:es）下载elasticsearch-5.2.2.tar.gz：https://github.com/elastic/elasticsearch/releases?after=v5.2.2安装jdk8...

2019-07-21 15:13:00 100

转载 elasticSearch（二）——核心概念

一、近实时近实时，两个意思，从写入数据到数据可以被搜索到有一个小延迟（大概1秒）；基于es执行搜索和分析可以达到秒级。二、Cluster（集群）集群包含多个节点，每个节点属于哪个集群是通过一个配置（集群名称，默认是elasticsearch）来决定的，对于中小型应用来说，刚开始一个...

2019-07-21 15:12:00 143

转载 elasticSearch（一）——概述

一、什么是搜索搜索，就是在任何场景下，找寻你想要的信息，这个时候，会输入一段你要搜索的关键字，然后就期望找到这个关键字相关的有些信息,在互联网里面；当提到搜索，我们首先会想到的就是百度！但是针对互联网来说很多地方都会用到搜索：比如一些电商网站、新闻网站、招聘网站、收集移动端App、OA软件...

2019-07-21 15:11:00 115

转载分层架构及SOA架构

一、分层架构二、SOA架构转载于:https://my.oschina.net/ittzg/blog/3076647

2019-07-20 14:26:00 694

转载可扩展模式

一、概述硬件软件最大的区别在于，软件具有可扩展性，硬件从制造出来就不会进行改变直到硬件损坏！软件天生具有可扩展性的这一特点虽然独一无二，同样的也是他的一大难点二、可扩展思想可扩展的思想就是"拆"，拆分软件系统，得到不用的架构，常见的拆分思路有三种：面向流程的拆分：将整体业务流...

2019-07-20 14:25:00 204

转载 Hive（五）——Sqoop导入数据

一、Sqoop的安装与配置下载安装包：sqoop-1.4.5-cdh5.3.6.tar.gz解压到linux指定目录备份./conf/sqoop-env-template.sh文件，cp sqoop-env-template.sh sqoop-env.sh修改配置文件：#Set ...

2019-07-19 00:39:00 116

转载 Hive（四）——Hive框架基础（二）

一、Hive创建表的方式使用create命令创建一个新表例如：create table if not exists dbname.tbname(字段) partitioned by (date string,hour string) ## 分区 row format delimi...

2019-07-17 09:04:00 120

转载 CAP

一、概述C（Consistance）:一致性--对客户端来说，读操作保证能够返回最新的写操作的结果A (Availability):可用性--非故障节点在合理的时间内，返回合理的响应（不是错误和超时响应）P（Partition Tolerance）:分区容错性，当出现网络反应后，系统能...

2019-07-16 23:31:00 103

转载 Hive（三）——Hive框架基础

一、Hive的MapReduce任务相关配置：<property> <name>hive.fetch.task.conversion</name> <value>more</value> <description&gt...

2019-07-14 23:13:00 186

转载 Hive（二）——Hive的安装与部署

一、安装前的说明hive相当于MapReduce的客户端，所以hive只有在hadoop环境下正常运行，这里说明一下，本博客今后的案例都会将hive安装在hadoop-ip-101的机器上hive依赖java，hadoop，mysql准备好hive的安装包：hive-0.13.1-cd...

2019-07-14 23:12:00 104

转载 Hive（一）——Hive基础知识

一、数据库与数据仓库在讲述Hive之前先了解一下数据库和数据仓库的含义数据库：是一种逻辑概念，用来存放数据的仓库，通过数据库软件来实现。数据库由很多表组成，表是二维的，一张表里面有很多字段。字段一字排开，对数据就一行一行的写入表中。数据库的表，在于能够用二维表现多维的关系。如：oracl...

2019-07-14 19:39:00 124

转载 MongoDB(三)——java集成mongodb

代码下载地址：https://github.com/tazhigang/big-data-github.git一、项目结构二、pom.xmlmongodb-parent----->pom.xml <?xml version="1.0" encoding="UTF-8"?...

2019-07-13 22:15:00 358

转载 MongoDB(二)——MongoDB的基本语法

1.进入test数据库//查看当前mongodb有哪些数据库 show dbs //进入test数据库 use test //查看当前所在的数据库名称 db 2.向数据库的user集合中插入一个文档/* db.collection.insert()...

2019-07-12 23:51:00 312

转载 MongoDB(一)——数据库的简介及MongoDB的安装

一、数据库数据库是按照数据结构来组织、存储和管理数据的仓库。我们的程序都是在内存中运行的，一旦程序运行结束或者计算机断电，程序运行中的数据都会丢失。所以我们就需要将一些程序运行的数据持久化到硬盘之中，以确保数据的安全性。而数据库就是数据持久化的最佳选择。说白了，数据库就是存储数据的...

2019-07-11 23:53:00 91

转载 Zookeeper（四）——理论篇（四）

一、客户端命令行操作启动客户端连接help ：显示所有操作命令ls path [watch] ：使用 ls 命令来查看当前znode中所包含的内容；如：ls /ls2 path [watch] ：查看当前节点数据并能看到更新次数等数据;如：ls2 /create : 创建节点...

2019-07-11 21:21:00 83

转载 Zookeeper（三）——理论篇（三）

一、Zk数据结构ZooKeeper数据模型的结构与Unix文件系统很类似，整体上可以看作是一棵树，每个节点称做一个ZNode。很显然zookeeper集群自身维护了一套数据结构。这个存储结构是一个树形结构，其上的每一个节点，我们称之为"znode"，每一个znode默认能够存储1MB的数...

2019-07-11 20:47:00 127

转载 Zookeeper（二）——理论篇（二）

一、zookeeper集群的搭建zookeeper集群的搭建相对比较简单就是在单机的基础上增加一些配置，然后将该配置分发到其他机器上具体操作如下：将zookeeper-3.4.5.tar.gz通过sftp上传至hadoop-ip-101：/home/hadoop/soft目录下;并将压缩...

2019-07-10 22:19:00 103

转载 Zookeeper（一）——理论篇（一）

一、概述Zookeeper是一个开源的分布式的，为分布式应用提供协调服务的Apache项目。Zookeeper从设计模式角度来理解：是一个基于观察者模式设计的分布式服务管理框架，它负责存储和管理大家都关心的数据，然后接受观察者的注册，一旦这些数据的状态发生变化，Zookeeper就将负责...

2019-07-10 21:42:00 88

转载 Hadoop（十八）——hadoop之MapReduce理论篇（九）——MapReduce参数优化

一、资源相关参数 1.以下参数是在用户自己的mr应用程序中配置就可以生效配置参数参数说明 mapreduce.map.memory.mb 一个Map Task可使用的资源上限（单位:MB），默认为10...

2019-07-08 23:12:00 263

转载大数据案例（九）——自定义Outputformat

代码下载地址：https://github.com/tazhigang/big-data-github.git一、概述要在一个mapreduce程序中根据数据的不同输出两类结果到不同目录，这类灵活的输出需求可以通过自定义outputformat来实现。自定义outputformat，...

2019-07-07 23:43:00 294

转载大数据案例（八）——自定义Inputformat

代码下载地址：https://github.com/tazhigang/big-data-github.git一、概述自定义一个InputFormat改写RecordReader，实现一次读取一个完整文件封装为KV在输出时使用SequenceFileOutPutFormat输出合并文...

2019-07-07 21:21:00 201

转载大数据案例（七）——MapReduce之map端表合并（Distributedcache）

代码下载地址：https://github.com/tazhigang/big-data-github.git一、前期准备由于本案例是在案例六的基础上做的优化，所以需求及数据输入输出请参考案例六；初次之外需要拷贝pd.txt文件在本地电脑J盘的根目录下以做参考本案例只需要上传order...

2019-07-07 12:24:00 151

转载大数据案例（六）——MapReduce之reduce端表合并（数据倾斜）

代码下载地址：https://github.com/tazhigang/big-data-github.git一、需求：将商品信息表中数据根据商品id合并到订单数据表中二、数据准备数据准备： ==============================order.txt=======...

2019-07-07 11:59:00 202

转载大数据案例（五）——MapReduce求出每一个订单中最贵的商品

代码下载地址：https://github.com/tazhigang/big-data-github.git一、需求：求出每一个订单中最贵的商品二、数据准备数据准备 Order_0000001 Pdt_01 222.8 Order_0000002 Pdt_05 722.4 O...

2019-07-07 11:20:00 1018

转载大数据案例（四）——MapReduce将文件按照订单号分成若干个小文件

代码下载地址：https://github.com/tazhigang/big-data-github.git一、需求：将文件按照订单号分成若干个小文件二、数据准备数据准备 Order_0000001 Pdt_01 222.8 Order_0000002 Pdt_05 722.4...

2019-07-07 11:09:00 287

转载大数据案例（三）——MapReduce实现流量统计案例-分区

代码下载地址：https://github.com/tazhigang/big-data-github.git一、需求：将统计结果按照手机归属地不同省份输出到不同文件中（分区）二、数据准备数据准备：案例二中的phoneData.txt根据电话号码的前三位分区三、创建maven项目...

2019-07-06 14:19:00 561

转载 Hadoop（十七）——hadoop之MapReduce理论篇（八）—— MapReduce与Yarn

一、Yarn概述Yarn是一个资源调度平台，负责为运算程序提供服务器运算资源，相当于一个分布式的操作系统平台，而mapreduce等运算程序则相当于运行于操作系统之上的应用程序二、Yarn的重要概念Yarn并不清楚用户提交的程序的运行机制Yarn只提供运算资源的调度（用户程序向Yar...

2019-07-05 22:47:00 155

转载 Hadoop（十六）——hadoop之MapReduce理论篇（七）——MapReduce数据压缩

一、概述压缩技术能够有效减少底层存储系统（HDFS）读写字节数。压缩提高了网络带宽和磁盘空间的效率。在Hadood下，尤其是数据规模很大和工作负载密集的情况下，使用数据压缩显得非常重要。在这种情况下，I/O操作和网络数据传输要花大量的时间。还有，Shuffle与Merge过程同样也面临着...

2019-07-05 22:46:00 151

转载 Hadoop（十五）——hadoop之MapReduce理论篇（六）—— ReduceTask工作机制

一、设置ReduceTaskreducetask的并行度同样影响整个job的执行并发度和执行效率，但与maptask的并发数由切片数决定不同，Reducetask数量的决定是可以直接手动设置：//默认值是1，手动设置为4job.setNumReduceTasks(4);二、注意如...

2019-07-04 23:06:00 171

转载 Hadoop（十三）——hadoop之MapReduce理论篇（四）—— MapTask工作机制

一、问题引出maptask的并行度决定map阶段的任务处理并发度，进而影响到整个job的处理速度。那么，mapTask并行任务是否越多越好呢？二、MapTask并行度决定机制一个job的map阶段MapTask并行度（个数），由客户端提交job时的切片个数决定。三、MapTask工作机...

2019-07-04 23:05:00 121

转载 Hadoop（十四）——hadoop之MapReduce理论篇（五）——MapReduce详细工作流程

一、Shuffle机制Mapreduce确保每个reducer的输入都是按键排序的。系统执行排序的过程（即将map输出作为输入传给reducer）称为shuffle。二、MapReduce工作流程1.图示流程2.流程详解上面的流程是整个mapreduce最全工作流程，但是shuff...

2019-07-04 23:05:00 226

转载 Hadoop（十二）——hadoop之MapReduce理论篇（三）—— FileInputFormat源码解析及切片规则详解...

一、源码 public List<InputSplit> getSplits(JobContext job) throws IOException { long minSize = Math.max(this.getFormatMinSplitSize(), ge...

2019-07-03 00:49:00 336

转载 Hadoop（十一）——hadoop之MapReduce理论篇（二）—— job的提交流程源码分析

一、job提交过程源码分析1. 调用job.waitForCompletion(true)源码查看/** * 1. @Param verbose：true表示将运行进度等信息及时输出给用户，false的话只是等待作业结束 * 2. public static enum JobState...

2019-07-03 00:48:00 314

空空如也

空空如也