WaterBigchicken-CSDN博客

原创 SpringBoot学习：（二）SpringBoot+Mybatis+Pagehelper

开发环境jdk 1.8.X Dynamic Web Module 3.1 SpringBoot 1.5.X apache-maven 3.5.2 apache-tomcat 8.5.24 MySQL 5.0.67 功能SpringBoot+Mybatis+TkMapper+Pagehelper整合，实现数据分页，...

2019-07-23 10:21:46 205

原创 SpringBoot学习：（一）最简单的SpringBoot Project

SpringBoot特点 创建可以独立运行的Spring应用 内嵌Tomcat/Jetty容器，可直接打成jar包启动，无需提供Java WAR包以及繁琐的Web配置 提供Spring各个插件的基于Maven的pom配置，简化Maven配置过程 尽可能的根据项目依赖来自动配置Spring框架，简化开发流程 没有代码生成，也没有 XML 配置文件 提供支持强大的...

2019-07-11 17:08:06 334

原创大数据笔记之Flume

Flume由Cloudera公司开源的分布式、可靠、高可用的海量日志采集系统。数据源可定制，可扩展; 数据存储系统可定制，可扩展。特点可靠性：保证数据不丢失可扩展性：各组件数目可扩展高性能：吞吐率很高，能满足海量数据收集需求可管理性：可动态增加和删除组件文档丰富，社区活跃已成为Hadoop生态系统标配NG架构Master管理协调 agent 和coll...

2019-04-04 20:31:17 300

原创大数据笔记之Oozie

OozieOozie在hadoop生态圈中把多个Map/Reduce作业组合到一个逻辑工作单元中，从而完成更大的任务。是一种Java Web应用程序，它运行在Java servlet容器。功能主要用于管理与组织Hadoop工作流。Oozie的工作流必须是一个有向无环图，实际上Oozie就相当于Hadoop的一个客户端，当用户需要执行多个关联的MR任务时，只需要将MR执行顺序写入work...

2019-03-14 10:55:54 224

原创大数据笔记之sqoop

sqoop sqoop是 apache 旗下一款“Hadoop 和关系数据库服务器之间传送数据”的工具。本质就是迁移数据，就是把sqoop的迁移命令转换成MR程序功能导入数据：MySQL，Oracle 导入数据到 Hadoop 的 HDFS、HIVE、HBASE 等数据存储系统导出数据：从 Hadoop 的文件系统中导出数据到关系数据库 mysql 等 Sqoop 的本质...

2019-03-14 10:41:37 211

原创大数据之PIG

PIGPIG是Hadoop生态环境下的用于分析代表数据流的工具，要编写数据分析程序，Pig提供了一种称为Pig Latin的高级语言。该语言提供了各种运营商使用哪些程序员可以开发自己的功能来读取，写入和处理数据。使用Pig Latin，程序员可以轻松执行MapReduce任务，而无需在Java中输入复杂代码。Apache Pig使用多查询方法，从而缩短代码长度。Pig Latin是...

2019-03-14 10:29:35 1004

原创大数据之Spark

背景：由于MapReduce框架仅支持map和reduce两种操作，且迭代计算效率低，不适合交互式处理（数据挖掘），流式处理，不支持函数式编程语言（scala）。之前各种技术框架如，批处理的：HIVE，PIG，Mapreduce。流计算的storm，交互式计算的Impala，而spark是在此基础上的集大成者！统一了框架！特点：高效：基于内存的计算框架，比Mapreduce...

2019-03-13 21:04:44 261

原创大数据笔记之Kafka

KafkaKafka是一个高吞吐的分布式消息系统。同时为发布和订阅提高吞吐量，可进行持久化操作，将消息持久化到磁盘，因此可用于批量消费。分布式系统，易于向外扩展。所有的producer，broker和consumer都会有多个，无需停机即可扩展机器。消息处理的状态是在consumer端维护，而不是由server端维护。当失败时能自动平衡。设计：消息保存在磁盘，O（1）时间复杂度，消费状态保...

2019-03-13 20:29:19 351

原创大数据之Storm

Storm为hadoop提供流处理，运维简单，高度容错，支持多种语言的实时数据处理系统。Storm集群主要由一个主节点和一群工作节点组成，通过Zookeeper集群协调。集群架构： Nimbus:主节点运行的一个后台程序，用于响应分布在集群中节点，分配任务和检测故障。 Supervisor：工作节点运行的一个后台程序，用于收听工作指派并基于要求工作进程。 Top...

2019-03-13 10:46:09 322

原创大数据笔记之HIVE

HIVE构建于Hadoop的HDFS和mapreduce之上，用于管理和查询结构化/非结构化数据的数据仓库。使用HQL作为查询接口，HDFS作为底层存储，使用Mapreduce作为执行层。HIVE是基于Hadoop分布式处理系统的数据仓库技术，Hive集成了SQL技术，提供了类似SQL的查询语言，即HQL，用于查询Hadoop集群中的数据。HIVE应用框架...

2019-03-13 09:33:38 315

原创大数据笔记之ZooKeeper

ZooKeeper作用解决分布式环境下多个进程之间的同步控制，让他们有序地去访问某个临界资源，防止读取"脏数据"。可利用分布式锁的方式解决该问题，而分布式锁会面临网络不可靠等问题，所以诞生ZooKeeper来解决上述问题。其有着通用性号，伸缩性好，高可靠，高可用的特点。Zookeeper集群leader角色（Paxos协议）：接受client请求，也接受其他server转发的请求，负责...

2019-03-12 16:58:19 174

原创大数据笔记之YARN

Hadoop2.0由HDFS,MR,YARN三部分组成。其中HDFS：支持NN Federation、HA。MapReduce：运行在YARN上的MR，编程模型不变。YARN：资源管理系统。YARN框架ResourceManager:处理客户端请求，启动/监控ApplicationMaster，监控NodeManager，资源分配与调度。 NodeManager...

2019-03-12 15:39:09 198

原创大数据笔记之MapReduce原理

MapReduce原理Mapreduce是一种“分而治之”的思想，把大任务拆解为多个小任务原理流程框架解剖图输入数据分块InputSplits：InputSplit定义了输入到单个Map任务的输入数据，一个MapReduce程序被统称为一个Job，可能有上百个任务构成。InputSplit将文件分为64MB。 RR（RecordReader）：称数据记录读入，其作用定...

2019-03-12 11:06:01 350

原创大数据笔记之HDFS架构

HDFS架构节点分为两类:一类叫“主节点”(Master Node)或者也被称为“名称结点”(NameNode)，另一类叫“从节点”（Slave Node）或者也被称为“数据节点”(DataNode)NameNode（NN）：负责管理集权的命名空间，并且为所有文件和目录维护一个树状结构的元数据信息。元数据持久化存储在硬盘中。保存文件,block ，datanode之间的映射关系。全权管理数...

2019-03-12 10:11:21 476

原创大数据笔记之HA(High Availability)

HA——High AvailabilityHA的作用：1.解决单点故障问题，比如主节点宕机或者主节点软件或硬件升级，导致集群在短时间内不可用。 2.提升集群容量和集群性能...

2019-03-11 16:14:48 1252

BigchickenUpUp