自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

原创 早安

睡前准备:把纠结留在昨天: 睡觉前请将第二天要穿的衣服放置在伸手就能拿到的地方,不要第二天早晨再纠结今天应该穿什么。 因为很可能这个纠结的过程你会在床上完成,起床的黄金时间很短,一旦你花在纠结穿搭上,你就更难起床了。 如果是冬天一定要把衣服放在暖气或加热器附近,这样第二天起床后你穿上的衣服是...

2019-12-30 11:32:46 11443 18

原创 加油吧 少年(励志)

1.你背单词时,阿拉斯加的鳕鱼正跃出水面; 你算数学时,太平洋的海鸥振翅掠过城市上空; 你晚自习时,极圈上的夜空散漫着五彩斑斓; 但是少年你别着急,当你为自己的未来踏踏实实地努力时,那些你感觉没有可能看到的风景, 那些你觉得终身不会遇到的人,正一步步向你走来。” 2.你背不下来的书,总...

2019-12-22 13:32:27 14818 61

原创 Spark 理论

目录 1、Spark有几种部署方式?(重点) 2、Spark提交作业参数(重点) 3、简述Spark on yarn的作业提交流程(重点) 4、请列举Spark的transformation算子(不少于5个)(重点) 5、请列举Spark的action算子(不少于5个)(重点) 6、简...

2020-05-26 14:28:19 1445 0

原创 Kylin_亚秒级数据预处理(多表)

目录 按照订单渠道名称统计订单总额/总数量 1、创建Model 2、创建Cube 3、执行构建、等待构建完成 4、执行SQL查询,获取结果 按照订单渠道名称统计订单总额/总数量 1、创建Model 指定关联表、关联条件 添加 查找 第二张表 设置 事实表 与 维度表 ...

2020-05-14 17:04:59 4052 0

原创 Kylin_亚秒级数据预处理(单表)

测试数据表结构介绍 1、(事实表)dw_sales 列名 列类型 说明 id string 订单id date1 string ...

2020-05-14 16:21:48 3994 0

原创 解决缓慢变化维—拉链表

什么是缓慢变化维(SCD)、 1、缓慢变化维简介 缓慢变化维,简称SCD(Slowly Changing Dimensions) 一些维度表的数据不是静态的,而是会随着时间而缓慢地变化(这里的缓慢是相对事实表而言,事实表数据变化的速度比维度表快) 这种随着时间发生变化的维度称之为缓慢变化维...

2020-05-07 14:56:05 4207 20

原创 解决hive建表报错 character ' ' not supported here

普通hive 建表bug 去官网 下载一个有道云笔记。点击进入到Markdown模式, ok bug 完美解决

2020-05-06 18:27:24 4109 0

原创 Mysql导入Source数据库

首先要确保数据库存在,如果不存在则创建 方法1 source # mysql -uroot -p Enter password: Welcome to the MySQL monitor. Commands end with ; or \g. Your MySQL connection id...

2020-05-04 12:02:12 4051 0

原创 基于地域的订单分类指标分析(思路指向)

5 1 获取全国、无商品分类维度的分交易类型数据 6 2 获取全国、无商品分类维度的不分交易类型的数据 itcast_payments -> itcast_orders -> itcast_orders_goods 7 3 获取全国、一级商品分类维度的分交易类型...

2020-04-27 20:24:36 4708 3

原创 项目需求

目录 需求列表 需求列表 模块 序号 (所有) 序号 (模块) 需求 基于日期的订单指标分析 1 1 统计201...

2020-04-27 15:59:47 4834 2

原创 阶段一

目录 电商行业分析 电商行业技术特点 电商业务系统简介 项目简介 项目架构 项目环境介绍 项目ER图 原始表 本项目ER图 了解大数据离线数仓架构 了解项目部署环境(数据规模和集群规模) 了解项目ER图 了解项目需求 电商行业分析 近年来,中国的电子商务快速发展,交易额...

2020-04-27 15:56:30 5280 1

原创 总体介绍

阶段一 项目背景介绍 了解行业背景、了解项目背景,项目架构介绍、技术选型,项目环境(数据/硬件)介绍,项目ER图、项目需求介绍。 基于项目需求实现查询功能(写SQL)或整理出查询流程 阶段二 准备数据(Mysql->Hive) 学习、掌握kettle的使用、使用kettle将项目...

2020-04-27 15:47:27 5409 2

原创 数仓的含义

目录 1. 什么是数仓? 2.数据仓库和数据集市的概念 3.数据仓库和数据集市之间的区别 1. 什么是数仓? 数仓 可以理解 为 :数据仓库 或者 数据集市 那么 “数据仓库”的概念可以追溯到80 年代中期。从本质上讲,最初数据仓库是想为操作型系统到决策支持环境的数据流提供一种体系...

2020-04-27 15:43:19 4784 4

原创 项目需求(基于日期的订单指标分析)

目录 统计2019年期间每个季度的销售订单笔数、订单总额 • 统计2019年期间每个月的销售订单笔数、订单总额 统计2019年期间每周一到周日的销售订单笔数、订单总额 统计2019年期间每个季度的销售订单笔数、订单总额 -- 统计2019年期间每个季度的销售订单笔数、...

2020-04-25 19:12:53 4684 0

原创 判断日期是否为 法定节假日、休息日、工作日

package com.czxy; import java.io.BufferedReader; import java.io.InputStream; import java.io.InputStreamReader; import java.net.HttpURLConnection; i...

2020-04-25 18:27:13 4828 0

原创 大数据相关命令

安全模式 关闭 hdfs dfsadmin -safemode leave 查看历史命令 history 查看 ps -ef | grep 名称 hive Zookeeper 开启与关闭 全部 开启 zkstart-all.sh 逐个...

2020-04-24 10:36:43 4696 0

原创 使用Spark Streaming对接kafka 写入 mysql 并查询 插入(实时更新 并 覆盖)

以下是RNG S8 8强赛失败后,官微发表道歉微博下一级评论 部分数据: 17 0 2018/10/20 21:08 许向暖呐:滚 0 0 5670089757 许向暖呐 0 1540040880 18 0 2018/10/20 21:08 曹大老实人:你知道我在网吧看比赛我...

2020-04-23 18:48:38 4589 3

原创 StructStreaming 代码

//需求 统计年龄小于25岁的人群的爱好排行榜 读取文件 package day26 import org.apache.spark.sql.{DataFrame, Dataset, Row, SparkSession} import org.apache.spark.sql.types....

2020-04-22 12:00:30 5604 7

原创 Scala 样例类

目录 1、创建一个demo1的单例,在demo1中创建一个样例类名字为student1,成员变量为name:String, age:Int创建主方法实例化student,并传参数(“xiaoming”,20),打印输出student1对象到控制台 2、创建一个demo2的单例,在demo2中创...

2020-04-22 11:55:20 5064 2

原创 Structured Streaming SQL

package Spark import org.apache.spark.sql.{DataFrame, SparkSession} /** * 使用Structured Streaming读取Socket数据,把单词和单词的反转组成 json 格式写入到当前目录中的file文件夹中 ...

2020-04-22 11:43:07 5087 4

原创 SparkRDD 练习

以下是租房信息的数据结构:数据之间使用tab进行分割,数据在housedata.txt文件中。(这里为一部分数据) 1111000004310 什坊院甲3号院 https://bj.lianjia.com/xiaoqu/1111000004310/ 海淀 田村 0 2017/11/29 1...

2020-04-22 11:23:11 5440 2

原创 Spark Streaming

目录 什么是Spark Streaming 什么是DStream 阐明RDD、DataFrame、DataSet、DStream数据抽象之间的关系。 SparkStreaming代码过程 窗口宽度和滑动距离的关系 0.8版本SparkStreaming集成kafka的差异 Rec...

2020-04-22 11:11:15 5581 1

原创 Spark SQL 自定义函数、开窗函数

目录 RDD、DF、DS三者之间的转化 Spark SQL自定义函数 开窗函数的作用 开窗函数的分类 聚和开窗函数 排序聚和函数 聚和开窗函数 排序聚和函数 RANK跳跃排序 RDD、DF、DS三者之间的转化 转换成RDD .rdd 转换成DF .toDF() 转换成DS...

2020-04-22 11:03:22 5544 1

原创 SparkSQL

目录 累加器的作用 广播变量的作用 SparkSQL基本介绍 什么是SparkSQL? SparkSQL底层的数据抽象 什么是DataFrame?? 什么是DataSet?? SparkSQL查询数据的形态 添加Schema的方式 通过StructType指定Schema代...

2020-04-22 11:01:53 5487 3

原创 Spark

目录 什么是Spark Spark特点 Spark运行模式 Spark编写代码 SparkCore 什么是RDD RDD的主要属性 RDD的算子分为两类: Rdd数据持久化什么作用? cache和Checkpoint的区别 什么是宽窄依赖 什么是DAG DAG边界 ...

2020-04-22 10:59:32 4957 9

转载 Kettle

目录 一、Kettle概述 01 什么是Kettle? 02Kettle核心知识 二、Kettle安装部署 01 Kettle安装地址 02 Windows下安装使用 三、Kettle入门案例 案例一:把stu1的数据按id同步到stu2,stu2有相同id则更新数据 (4) 实...

2020-04-20 19:09:01 4690 10

原创 一篇吃饱 Structured Streaming
原力计划

目录 Structured Streaming曲折发展史 Spark Streaming Structured Streaming Structured Streaming实战 (三种方式 WorldCount) Socket source方式 Json source方式 Kafk...

2020-04-17 11:27:19 5618 14

原创 Spark-streaming-kafka

目录 说明 核心概念图解 pom.xml API 创建topic 启动生产者 代码演示 说明 spark-streaming-kafka-0-10版本中,API有一定的变化,操作更加灵活,开发中使用 核心概念图解 pom.xml <!-- 指定仓库...

2020-04-17 11:05:39 6888 6

原创 SparkStreaming 介绍

一 Spark Streaming引入 新的场景需求 ●集群监控 一般的大型集群和平台, 都需要对其进行监控的需求。 要针对各种数据库, 包括 MySQL, HBase 等进行监控 要针对应用进行监控, 例如 Tomcat, Nginx, Node.js 等 要针对硬件的一些指标进行...

2020-04-14 17:49:04 6980 24

原创 BIgData 命令操作

查看 ps -ef | grep 名称 hive Zookeeper 开启与关闭 全部 开启 zkstart-all.sh 逐个节点关闭 zkServer.sh stop 时间同步 联网 ntpdate ntp4.aliyun.com 启动 HD...

2020-04-14 16:34:35 5991 6

原创 Spark 集成 Hive

Hive查询流程及原理 执行HQL时,先到MySQL元数据库中查找描述信息,然后解析HQL并根据描述信息生成MR任务 Hive将SQL转成MapReduce执行速度慢 使用SparkSQL整合Hive其实就是让SparkSQL去加载Hive 的元数据库,然后通过SparkSQL执行引擎...

2020-04-14 16:24:39 6337 6

原创 Oracle 错误疑难解决方案和总结
原力计划

Ⅰ.oracle itcast Oracle 安装自动生成sys用户和system用户 sys 超级用户 具有最高权限 具有sysDBA角色,有create database权限 该用户默认密码是change_in_install system 管理操作员 权限也比较大,具有syso...

2020-04-14 10:46:57 6655 2

原创 MySQL 优化
原力计划

首先了解什么是优化? 合理安排资源、调整系统参数使MySQL运行更快、更节省资源。 优化是多方面的,包括查询、更新、服务器等。 原则:减少系统瓶颈,减少资源占用,增加系统的反应速度。 数据库 性能参数 使用SHOW STATUS语句查看MySQL数据库的性能参数 SHOW S...

2020-04-14 10:44:56 6641 10

原创 Spark RDD 练习

1、创建一个1-10数组的RDD,将所有元素*2形成新的RDD scala> val rdd1 = sc.parallelize(1 to 10) rdd1: org.apache.spark.rdd.RDD[Int] = ParallelCollectionRDD[2] at para...

2020-04-13 21:16:13 6087 2

原创 Spark 自定义UDF

●需求 有udf.txt数据格式如下: Hello abc study small 通过自定义UDF函数将每一行数据转换成大写 select value,smallToBig(value) from t_word package cn.itcast.sql im...

2020-04-13 21:04:58 5826 1

原创 Spark UDAF 自定义函数

需求 有udaf.json数据内容如下 {"name":"Michael","salary":3000} {"name":"Andy","salary":4500} {&...

2020-04-13 21:03:17 6311 0

原创 Spark 三种方式 查询数据

1、分别给出一张表的数据:student_scores.txt 字段是:班级编号,班级名称,入学日期,所属院系中文名 学号,姓名,性别,所属班级编号,入学成绩 170401011001 ,施礼义,男,0101,467 170401011002 ,王旭,男,0101,518 170401011...

2020-04-13 21:01:37 5857 8

原创 MySql Data Manipulation Language 数据操纵语言 (DML)

员工表employee 建表语句: create table employee ( id int, name varchar(20), sex varchar(10), birthday date, salary float, ...

2020-04-13 10:21:19 6090 2

原创 MySql 单表查询练习

学生表students 建表语句: CREATE TABLE `students` ( `name` varchar(255) CHARACTER SET utf8 COLLATE utf8_general_ci NULL DEFAULT NULL COMMENT �...

2020-04-13 09:53:11 5971 2

原创 Review HDFS 文件系统的容量

HDFS 文件系统的容量 理解: 将多个节点的容量汇总到一起拼接成一个大的文件系统, 在一个节点上传数据,在其他的节点上都能够访问使用。 图解 : ...

2020-04-12 11:14:03 7145 0

提示
确定要删除当前文章?
取消 删除