自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(25)
  • 资源 (1)
  • 收藏
  • 关注

原创 flink学习(五)

学习目标就是flink-SQL 开发1.背景Flink SQL 是 Flink 实时计算为简化计算模型,降低用户使用实时计算门槛而设计的 一套符合标准 SQL 语义的开发语言。 自 2015 年开始,阿里巴巴开始调研开源流计算引擎,最终决定基于 Flink 打造新一 代计算引擎,针对 Flink 存在的不足进行优化和改进,并且在 2019 年初将最终代码开源, 也就是我们熟知的 Blink。Blink 在原来的 Flink 基础上最显著的一个贡献就是 Flink SQL 的实现。Flink SQL

2020-09-18 09:58:22 297

原创 flink学习(四)

学习目标1.Time与window2.EventTime与window3.Flink的容错(checkpoint)4.Flink的状态管理 state1.Time与window1.1TimeEvent Time: 数据产生的时间Ingestion Time: 是数据进入 Flink 的时间。Processing Time :算子操作使用的时间1.2windowWindow 可以分成两类:CountWindow: 按照指定的数据条数生成一个 Window, 与时间无关。TimeWi

2020-09-18 08:39:19 293

原创 flink学习(三)

学习目标1.入门案例(掌握)2.DataStream的输入数据集source(掌握)3.DataStream的Transformation(掌握)4.DataStream数据输出sink(掌握)1.入门案例def main(args: Array[String]): Unit = { /** * 实现思路: * 1. 获取流处理运行环境 * 2. 构建socket流数据源, 并指定IP地址和端口号 * 3. 对接收到的数据转换成单词元组

2020-09-18 08:29:45 213

原创 flink学习(二)

学习目标1.入门案例(掌握)2.输入数据集DataSource(掌握)3.DataSet的Transformation(掌握)4.数据的输出DataSink(掌握)5.Flink的广播变量(掌握)6.Flink的分布式缓存(掌握)7.Flink的累加器(了解)1.入门案例/** * 单词统计,入门案例 */object BatchWordCount { def main(args: Array[String]): Unit = { //1.创建批处理执行环境 va

2020-09-18 08:21:21 251

原创 flink学习(一)

前言:之前学习flink时没有系统性的复习,现在不多BB就是为了复习flink(从头再来)1.1flink的引入计算引擎分为几代有些争议,这里我选择的是四代第一代计算引擎,MapReduce (首先第一代的计算引擎,无疑就是 Hadoop 承载的 MapReduce,它将计算分为两个阶段,分别为 Map 和 Reduce)第二代计算引擎 ,tez+Oozie(特点:批处理 1 个 Tez = MR(1) + MR(2) + … + MR(n),相比 MR 效率有所提升)第三代计算引擎 ,spark

2020-09-11 21:50:51 215

原创 关于面试薪资低的问题

很多同学刚刚毕业,面试的时候面试官可能会说前期你还要学习的东西比较多,公司给的工资可能不会特别高,你可以接受吗?碰到这样的问题时不要马上就说不接受又或者接受。首先你既然来参加这个面试那就说明你肯定是想得到这份工作的,那么被问到这个问题时,你首先不是说接受与不接受。第一你应该问:“具体是多少,我想了解一下您指的不高具体是多少?”问这个问题是防止自己掉到坑里,如果你不问具体是多少,就直接回答没问题,那么给你3000也可以,给你4000也可以,那么为什么给你高的呢?我们必须要了解到具体的工资才可以判断自己是

2020-09-07 14:59:14 472

原创 面试如何介绍自己的缺点

直接奔主题,问到缺点主要分三个方面,工作中,生活上以及思想上。工作中,我不太能接受周围的人故意怠惰,推卸责任,以及在团队合作中,只会依靠团队,而不想着如何通过提升自己的工作力,来提高团队整体的能力,这会导致我注重整体工作效率,大于注重和谐气氛,显得不够和善,不知道这算不算个缺点。生活上,我在生活中确实没有任何让朋友觉得不舒服的地方,我很不愿意麻烦别人,不到万不得已,确实不会求人帮忙,当然一旦求了,我一定会用态度+物质,非常诚恳的感谢对方,这就导致,我也不太喜欢别人轻易麻烦我,不知道这算不算是个缺点。还好

2020-09-07 09:34:25 389

原创 大数据面试前的总体准备(二)

分布式并行计算框架MapReduce是指实现某项任务或某项工作从开始到结束的计算过程或流的结构分布式并行计算框架一个大的任务被拆分成多个小任务,每个小任务同时执行。按照执行流程进行计算WordCount 单词总和(要能手写代码)Map的输出 是key,value的 listReduce的输入 是key value的listMapReduce核心思想分而治之,先分后和(只有一个模型)Map负责数据拆分 map: [k1,v1] → [(k2,v2)]Reduce负责数据合并 reduce:

2020-08-06 15:05:00 250

原创 大数据面试前的总体准备(一)

咱们学了这么久的大数据了,也改到面试的时候了。那么我们该怎么去面试呢?我觉得不论你学多少面试技巧,你的基本能力不到位那是不可能要你的,因为你总得去干活吧,不会怎么去干活呢?所以我打算从头过一遍咱们的所有知识,来,不多bb!淦!(一)HadoopHadoop:HDFS/YARN/MapReduce简单概述HDFS:NameNodeDataNodeSecondaryNameNode概念:ClientNN :一个,Single Point of Failure(单点问题,如果挂了,就一个,那就

2020-05-28 21:51:06 578

原创 千亿级数仓项目(三)

ok,之前已经把所有数据都导入到ods层了吧,接下来咱们就开始进入dw层拉!数仓项目 指标计算目标能够完成订单地域、分类维度业务开发能够完成订单时间维度分析1 数仓项目 - 订单分析时间维度分析业务开发先要准备日期数据drop table if exists itcast_dw.dim_date;CREATE TABLE itcast_dw.dim_date(date_key string,date_value string, day_in_year string,day_in

2020-05-19 20:54:24 511 1

原创 千亿级数仓项目(二)

许久不见。咱们接着之前的来讲,你应该按我说的把kettle给学了一遍了吧?没学的话请赶紧去学,否则后面你也看不懂。咱们今天从数仓理论开始讲!数据仓库维度模型设计1 维度建模基本概念维度模型是数据仓库领域大师Ralph Kimall所倡导,他的《数据仓库工具箱》,是数据仓库工程领域最流行的数仓建模经典。维度建模以分析决策的需求出发构建模型,构建的数据模型为分析需求服务,因此它重点解决用户如何更快速完成分析需求,同时还有较好的大规模复杂查询的响应性能。维度建模是专门应用于分析型数据库、数据仓库、数据集

2020-05-18 17:38:27 810

原创 千亿级数仓项目(一)

千亿级数仓项目(一)总体介绍阶段一千亿级数仓项目简介大数据离线数仓项目架构(需要修改)项目技术简介项目环境介绍项目ER图前言学了这么久大数据技术,也是时候搞个项目练练手了,现在就来看看我们接下来要肝的项目。总体介绍阶段一了解行业背景、了解项目背景,项目架构介绍、技术选型,项目环境(数据/硬件)介绍,项目ER图、项目需求介绍。基于项目需求实现查询功能(写SQL)或整理出查询流程阶段二学习、掌握kettle的使用、使用kettle将项目需求所需的数据在MYsql同步到Hive使用sqoop,将

2020-05-12 16:49:19 597

原创 HBase与Hive练习题

本题是一个综合练习题目总共包括以下部分:1.数据的预处理阶段2.数据的入库操作阶段3.数据的分析阶段4.数据保存到数据库阶段5.数据的查询显示阶段原始数据示例:qR8WRLrO2aQ:mienge:406:People & Blogs:599:2788:5:1:0:4UUEKhr6vfA:zvDPXgPiiWI:TxP1eXHJQ2Q:k5Kb1K0zVxU:hLP_mJIM...

2020-01-06 14:57:15 689

原创 Hive基本操作

Hive基本操作创建数据库与创建数据库表创建数据库create database if not exists myhive;use myhive;说明:hive的表存放位置模式是由hive-site.xml当中的一个属性指定的<name>hive.metastore.warehouse.dir</name><value>/user/hive/...

2019-11-25 22:04:39 151

原创 Hive交互方式

第一种交互方式:Hive交互shellcd /export/servers/hive-1.1.0-cdh5.14.0bin/hive查看所有的数据库hive (default)> show databases;创建一个数据库hive (default)> create database myhive;使用该数据库并创建数据库表hive (default)> ...

2019-11-25 21:58:27 178

原创 HIVE的安装部署

我们在此处选择第三台机器作为我们hive的安装机器安装derby版hive直接使用:1、解压hivecd /export/softwarestar -zxvf hive-1.1.0-cdh5.14.0.tar.gz -C ../servers/2、直接启动 bin/hivecd ../servers/cd hive-1.1.0-cdh5.14.0/bin/hivehive...

2019-11-25 21:50:56 147

原创 初识Hive

一、Hive基本概念1.1、Hive简介什么是HiveHive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供类SQL查询功能(HQL)。其本质是将SQL转换为MapReduce的任务进行运算,底层由HDFS来提供数据的存储,hive可以理解为一个将SQL转换为MapReduce的任务的工具。为什么使用Hive直接使用hadoop所面临的问题人...

2019-11-25 21:39:16 120

原创 MapReduce执行流程

第一步:InputFormatInputFormat 在HDFS文件系统中读取要进行计算的数据输出给Split第二步:SplitSplit 将数据进行逻辑切分,切分成多个任务。输出给RR第三步:RRRR 将切分后的数据转换成key value进行输出key : 每一行行首字母的偏移量value: 每一行数据输出给Map第四步:Map接收一条一条的数据(有多少行数据Map运行...

2019-11-15 11:53:53 155

原创 分布式并行计算框架MapReduce深入了解

分布式并行计算框架MapReduce是指实现某项任务或某项工作从开始到结束的计算过程或流的结构。分布式并行计算框架一个大的任务被拆分成多个小任务,每个小任务同时执行。按照执行流程进行计算。大数据为什快横向扩展移动程序到数据端多个数据副本分布式存储(减小磁盘IO的瓶颈)分布式计算(众人拾柴火焰高-人多力量大)WordCount 单词总和需求:计算aaa.txt文档中每个单...

2019-11-13 22:26:49 452

原创 MapReduce核心思想及关键步骤

MapReduce核心思想分而治之,先分后和(只有一个模型)Map负责数据拆分 map: [k1,v1] → [(k2,v2)]Reduce负责数据合并 reduce: [k2, {v2,…}] → [k3, v3]Mapreduce的输入是一个目录,那么会将目录内的所有文件进行读取计算, 若是一个文件,那么只计算该文件。 Mapreduce的输出路径绝对不能已存在Mapreduce ...

2019-11-13 22:21:59 925

原创 手把手教你编写MapReduce代码并运行

MapReduce编程初体验需求:在给定的文本文件中统计输出每一个单词出现的总次数(先在物理机上运行)数据格式准备如下:先在C盘创建一个aaa.txt(什么盘都行)在里面存入:hello,world,hadoophello,hive,sqoop,flumekitty,tom,jerry,worldhadoop然后打开你的代码编辑器(这里我用的是idea)创建一个maven项目...

2019-11-12 15:58:43 1242 1

原创 MapReduce(分布式计算框架)了解

Hadoop组成Hadoop HDFS:一个高可靠、高吞吐量的分布式文件系统,对海量数据的存储。Hadoop MapReduce:一个分布式的资源调度和离线并行计算框架。Hadoop Yarn:基于HDFS,用于作业调度和集群资源管理的框架。本篇将学习分布式并行计算框架MapReduce什么是计算框架?计算框架是指实现某项任务或某项工作从开始到结束的计算过程或流的结构。用于去解决...

2019-11-12 15:33:46 1994

原创 Hadoop的组成、及如何安装

Hadoop的组成HDFS : 用于海量数据的存储MapReduce :用于海量数据的计算Yarn :集群(CPU 内存 硬盘 )资源调度版本1.0: 历史版本,企业用的很少(一个“头”)2.0:企业用的最多的版本(两个“头”)3.0: 在2.0基础上添加了超强的压缩算法。安装hadoop准备阶段(每个节点上)1、 JDK 1.82、防火墙关闭3、selinux关闭4、修...

2019-11-07 20:18:13 253

原创 HDFS新增节点与删除节点

目标:掌握HDFS新添加节点到集群的步骤需求基础: 随着公司业务的增长,数据量越来越大,原有的数据节点的容量已经不能满足存储数据的需求,需要在原有集群基础上动态添加新的数据节点。新增节点步骤**第一步:**复制一台新的虚拟机出来(将我们纯净的虚拟机复制一台出来,作为我们新的节点)第二步:修改mac地址以及IP地址修改mac地址命令vim /etc/udev/rules.d/70-per...

2019-11-07 08:39:31 186

原创 HDFS介绍

hadoop视硬件设备经常损坏为常态,为了防止硬件损坏导致系统不可用,所以构建多副本机制。

2019-11-05 19:58:56 168

mysql建表语句.zip

用于千亿级数仓项目简介的mysql数据库的建表,以及插入数据。详情请到千亿级数仓项目(一)中观看,用于项目需求的所有数据,不客气呦。

2020-05-12

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除