自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(119)
  • 收藏
  • 关注

原创 python--文件操作

open函数,打开一个已经存在的问津,或者创建一个新文件。删除文件夹:os.rmdir(“test.txt”)获取目录列表:os.listdir(“./”)改变默认目录:os.chdir(“…获取当前目录:os.getcwd()文件重命名:os.rename()删除文件:os.remove()创建文件夹:os.mkdir()

2022-11-20 13:00:16 462 1

原创 python--函数

无参数、无返回值def function() : 表达式无参数、有返回值def function() : 表达式 return 需返回的值tips:函数中可以有多个return语句,但是只要执行一个return语句,就意味着这个函数的调用完成。有参数、无返回值def function(行参列表) : 表达式tips:a. 在调用函数时,如果需要把一些数据一起传递过去,被调用函数就需要用参数来接收;b. 参数列表中变量的个数根据实际传递的数据的多少来确定。有参数、有返回值。

2022-11-20 12:23:39 488

原创 python--字典和列表

study

2022-10-29 12:11:51 1905

原创 python_元组和字符串

这里写目录标题一级目录二级目录三级目录一级目录二级目录三级目录

2022-05-22 20:29:21 1170

原创 python_列表

目录一、列表1.1 什么是列表1.2 列表切片1.3 列表的增删改查1.3.1 增1.3.2 删1.3.3 改1.3.4 查1.4 列表的加法和乘法1.5 嵌套列表1.6 访问嵌套列表1.7 is运算符1.8 变量不是盒子二、 浅拷贝和深拷贝2.1 浅拷贝2.2 深拷贝三、列表推导式一、列表1.1 什么是列表列表就是就是使用一对中括号 " [] " 将所有准备放入列表中元素包裹起来,不同元素之间以逗号 “,” 分隔。eg:但若想按顺序访问序列列表上的每一个元素,可以使用for循环:获取指定索

2022-04-25 00:24:43 154

原创 Python_分支与循环

目录一、分支与循环 branch and loop1.1 分支结构1.1.1 if语句五种语法结构三级目录一、分支与循环 branch and loop1.1 分支结构1.1.1 if语句五种语法结构if判断一个条件,如果这个条件成立,就执行其包含的某条语句或某个代码块。if conditions: statement(s)使用缩进表示从属关系,在同一个代码块中,缩进量必须一致!eg:if-else判断一个条件:如果条件成立,就执行其包含的某条语句或某个代码块;如果条件不

2022-04-19 00:35:26 964

原创 Python_数字类型/布尔类型_短路逻辑和运算符优先级

目录整数 integers浮点数 floating point numbers复数 complex numbers数字运算整数 integerspython整数长度是不受限制的,有无限大的精度,可以随时随地进行大数运算:小数在python中是以浮点数的形式存放的。浮点数 floating point numbers由上可见,python的浮点数是有误差的,是因为python和C语言一样都是采用IEEE754的标准来存储浮点数的,所以会产生一定程度的误差。要想精确计算浮点数,就要使用到deci

2022-04-04 12:34:24 885

原创 Python_变量字符串与随机数

Python学习Python学习_day011.1 一个猜数字的小游戏1.2 Python内置函数1.3变量 Variable1.4 字符串 String1.5 转义字符1.6 原始字符串 raw Strings1.7 字符串的加法和乘法 Concatenation and multiplication of Strings1.8 循环结构1.9 改进小游戏Python学习_day01永远的 hello world>>>print("hello world")hello world

2022-03-19 17:59:16 619 1

原创 数据仓库之电商数仓-- 5、即席查询Kylin

目录一、Kylin1.1 Kylin简介1.1.1 Kylin定义1.1.2 Kylin相关术语1.1.3Kylin架构1.1.4 Kylin特点一、Kylin1.1 Kylin简介1.1.1 Kylin定义Apache Kylin是一个开源的分布式分析引擎,提供Hadoop/Spark之上的SQL查询接口及多维分析(OLAP)能力以支持超大规模数据,最初由eBay Inc开发并贡献至开源社区。它能在亚秒内查询巨大的Hive表。1.1.2 Kylin相关术语Data Warehouse (数据

2021-10-29 23:20:07 1249

原创 记录kylin成功启动,访问页面404问题

⚠️报错:Failed to find metadata store by url: kylin_metadata@hbaseat org.springframework.beans.factory.annotation.AutowiredAnnotationBeanPostProcessor$AutowiredFieldElement.inject(AutowiredAnnotationBeanPostProcessor.java:588) at org.springframewor

2021-10-29 00:39:54 2660 4

原创 大数据之HBase部署

一、HBase简介1.1 HBase定义HBase是一种分布式、可扩展、支持海量数据存储的NoSQL数据库。1.2 HBase数据模型逻辑上,HBase 的数据模型同关系型数据库很类似,数据存储在一张表中,有行有列。但从 HBase 的底层物理存储结构(K-V)来看,HBase 更像是一个 multi-dimensional map。1.2.1 HBase逻辑结构1.2.2 HBase 物理存储结构1.2.3 数据模型Name Space命名空间,类似于关系型数据库的 Datab

2021-10-28 20:20:41 398

原创 数据仓库之电商数仓-- 4、可视化报表Superset

目录一、Superset入门1.1 Superset概述1.2 Superset应用场景二、Superset安装及使用2.1 安装Python环境2.1.1 安装Miniconda2.1.2 创建Python3.7环境2.2 Superset部署一、Superset入门1.1 Superset概述Apache Superset是一个开源的、现代的、轻量级BI分析工具,能够对接多种数据源、拥有丰富的图表展示形式、支持自定义仪表盘,且拥有友好的用户界面,十分易用。1.2 Superset应用场景由于S

2021-10-26 21:38:21 983

原创 数据仓库之电商数仓-- 3.4、电商数据仓库系统(ADS层)

#!/bin/bashAPP=gmallif [ -n "$2" ] ;then do_date=$2else echo "请传入日期参数" exitfidws_visitor_action_daycount="insert overwrite table ${APP}.dws_visitor_action_daycount partition(dt='$do_date')select t1.mid_id, t1.brand, t1.model

2021-10-24 17:45:46 1805

原创 大数据之Azkaban部署

目录一、Azkaban概论1.1 为什么需要工作流调度系统1.2 常见工作流调度系统1.3 Azkaban 与 Oozie 对比二、Azkaban集群安装2.1 集群模式安装2.1.1 安装包准备2.1.2 配置 MySQL2.1.3 配置 Executor Server2.1.4 配置 Web Server2.2 Work Flow 案例2.2.1 HelloWorld2.2.2 作业依赖案例2.2.3 自动失败重试案例2.2.4 手动失败重试案例三、Azkaban进阶3.1 JavaProcess 作

2021-10-23 16:51:08 789

原创 记录执行hivesql时报org.apache.hadoop.hdfs.BlockMissingException:Could not obtain block错误

在执行hive sql时明明已经插入了数据,可是过了一会儿查询的时候数据表为空,而且报以下错误,以前也经常遇到,搞得我一直重新插入数据反反复复,今天终于找到了root cause⬇️⚠️报错:org.apache.hadoop.hdfs.BlockMissingException:Could not obtain block: BP-1094756810-192.168.10.102-1623427145615:blk_1073755935_15114 file=/warehouse/gmall/ads

2021-10-20 22:19:16 2524

原创 数据仓库之电商数仓-- 3.3、电商数据仓库系统(DWT层)

目录八、数仓搭建-DWT层8.1 访客主题8.2 用户主题8.3 商品主题8.4 优惠券主题8.5 活动主题8.6 地区主题8.7 DWT层首日数据导入脚本8.8 DWT层每日数据导入脚本八、数仓搭建-DWT层8.1 访客主题建表语句DROP TABLE IF EXISTS dwt_visitor_topic;CREATE EXTERNAL TABLE dwt_visitor_topic( `mid_id` STRING COMMENT '设备id', `brand` STR

2021-10-20 00:33:17 664

原创 数据仓库之电商数仓-- 3.2、电商数据仓库系统(DWS层)

目录七、数仓搭建-DWS层7.1 系统函数7.1.1 nvl函数7.1.2 日期处理函数7.1.3 复杂数据类型定义7.2 DWS层7.2.1 访客主题7.2.2 用户主题7.2.3 商品主题7.2.4 优惠券主题7.2.5 活动主题7.2.6 地区主题7.2.7 DWS层首日数据装载脚本7.2.8 DWS层每日数据装载脚本七、数仓搭建-DWS层7.1 系统函数7.1.1 nvl函数基本语法:NVL(表达式1,表达式2)如果表达式1为空值,NVL返回值为表达式2的值,否则返回表达式1的值。该函

2021-10-20 00:30:28 708

原创 数据仓库之电商数仓-- 3.1、电商数据仓库系统(ODS层、DIM层、DWD层)

目录一、数仓分层1.1 为什么要分层1.2 数据集市与数据仓库概念1.3 数仓命名规范1.3.1 表命名1.3.2 脚本命名1.3.3 表字段类型二、数仓理论2.1 范式理论2.1.1 范式概念2.1.2 函数依赖2.1.3 三范式区分2.2 关系建模与维度建模2.2.1 关系建模2.2.2 维度建模⭐️2.3 维度表和事实表⭐️2.3.1 维度表2.3.2 事实表2.4 维度模型分类2.5 数据仓库建模⭐️????2.5.1 ODS层2.5.2 DIM层和DWD层2.5.3 DWS层与DWT层2.5.4

2021-10-20 00:14:00 10281 8

原创 记录hive sql报错,return code1和return code2解决方法

执行hive sql语句的时候非常容易出现return code 1、return code 2、return code 3的情况,我就遇到了很多次,code3在某次意外中得以解决 但是引发了code2 和code1, 有些error莫名其妙的出现又莫名其妙的消失,可它还会带来更多的error。⚠️报错:[2021-10-19 19:45:38] [08S01][2] Error while processing statement: FAILED: Execution Error, return co

2021-10-19 22:39:01 15116 2

原创 大数据电商数仓--记录各种奇奇怪怪的issue

⚠️报错:hive on spark正常org.apache.hadoop.hive.ql.parse.SemanticException:Failed to get a spark session: org.apache.hadoop.hive.ql.metadata.HiveException: Failed to create Spark client for Spark session 65727339-603a-4fca-9df2-2f9d30e4b4a5⚠️报错:hive格式化报错Er

2021-10-14 19:47:32 1100

原创 记录hiveonspark:Execution Error, return code 30041 from org.apache.hadoop.hive.ql.exec.spark.SparkTask

问题描述:在部署hive on spark,测试时报错,执行建表操作成功,但是插入insert出现以下错误:Failed to execute spark task, with exception ‘org.apache.hadoop.hive.ql.metadata.HiveException(Failed to create Spark client for Spark session 2df0eb9a-15b4-4d81-aea1-24b12094bf44)’FAILED: Execution

2021-10-05 17:56:44 12528 12

原创 数据仓库之电商数仓-- 2、业务数据采集平台

目录1).2).3).4).5).6).7).8).9).

2021-10-04 18:00:59 714

原创 记录Linux下彻底删除MySQL以及启动MySQL之后使用密码登录提示报ERROR 1045 (28000): Access denied for user ‘root‘@‘localhost

问题描述:在安装mysql前需先卸载自带的Mysql-libs,或者安装错误导致mysql不可用等等一系列原因要彻底删除Linux上现存的所有的mysql。解决方法:使用以下命令查询MySQL安装情况:[xiaobai@hadoop102 mysql]$ rpm -qa|grep -i mysql若是启动了MySQL,首先停止:[xiaobai@hadoop102 mysql]$ service mysql stop使用sudo rpm -ev mysql安装包 --nodep

2021-10-02 23:30:49 349

原创 数据仓库之电商数仓-- 1、用户行为数据采集

加油干hhhhhh

2021-10-01 22:57:06 2641 3

原创 记录一次maven依赖成功导入,但找不到相关包的IDEA臭bug

问题描述:如图,需要使用com.alibaba.fastjson.JSON,在pom.xml中已经导入相关依赖;但是在代码引用时却找不到这个包!!!!!捣鼓了很久无果,也按照网上的方法将本地仓库repository中相关依赖删掉重新下载无数次,依然没有任何用!!!啊啊啊啊 我宝贵的时间将在此刻逝去!我恨!然后看到一篇文章拯救了我==>解决方法?:将依赖中fastjson部分删掉reimport一次;再将fastjson部分添加回来reimport一次就奇奇怪怪莫名其妙地导包成功了!真是

2021-09-29 22:08:01 266

原创 Shell脚本语言常用命令总结~

数据仓库搞起来

2021-09-23 23:17:48 1209

原创 Hadoop--Yarn常用命令 与 生产环境核心配置参数

写目录Yarn常用命令二级目录三级目录Yarn常用命令二级目录三级目录

2021-09-17 20:59:13 391

原创 Yarn调度器和调度算法(FIFO、容量调度器 与 公平调度器)

.。

2021-09-16 22:30:46 6320 2

原创 hadoop--Yarn资源调度器的基础架构、工作机制 与 作业提交全过程

目录Yarn资源调度器二级目录三级目录Yarn资源调度器二级目录三级目录

2021-09-16 20:36:22 228

原创 Hadoop数据压缩 与 数据清洗ETL

目录一、压缩概述优缺点原则二、MR 支持的压缩编码三、压缩方式选择Gzip压缩Bzip2 压缩Lzo压缩Snappy压缩压缩位置选择四、压缩参数配置五、压缩案例一、压缩概述优缺点优点:减少磁盘IO、减少磁盘存储空间;缺点:增加CPU开销。原则运算密集型的job,少用压缩;IO密集型的job,多用压缩。二、MR 支持的压缩编码压缩算法对比压缩性能比较三、压缩方式选择压缩方式选择时重点考虑:压缩/解压缩速度、压缩率(压缩后存储大小)、压缩后是否可以支持切片。Gzip压缩优

2021-09-14 22:48:40 350

原创 hadoop--Map Join

。。。。

2021-09-14 21:16:16 269

原创 hadoop--Reduce Join

。。。

2021-09-11 22:22:54 246

原创 hadoop--Shuffle机制

2021-09-09 20:49:08 211

原创 hadoop--MapReduce框架原理

目录MapReduce框架原理InputFormat数据输入切片与MapTask并行度决定机制MapReduce框架原理InputFormat数据输入切片与MapTask并行度决定机制1.问题:MapTask的并行度决定Map阶段的任务处理并发度,进而影响整个job的处理速度。但是相对于1G数据启动8个MapTask,可以提高集群的并发处理能力。1k的数据数据启动8个MapTask不一定会提高集群性能;MapTask并行任务是否越多越好?哪些因素影响了MapTask并行度?2.MapTask

2021-09-08 22:04:40 265 1

原创 Hadoop--MapReduce_Hadoop序列化

目录序列化概述什么是序列化为什么要序列化为什么不使用Java的序列化自定义bean对象实现序列化接口(Writable)实现bean对象序列化步骤序列化案例序列化概述什么是序列化序列化就是把内存中的对象,转换成字节序列(或其他数据传输协议)以便于存储到磁盘(持久化)和网络传输。反序列化就是将收到的字节序列(或其他数据传输协议)或者是磁盘的持久化数据,转换成内存中对象。为什么要序列化一般来说,“活的”对象只生存在内存里,关机断电就没有了。而且“活的”对象只能由本地的进程使用,不能被发送到网络上的另

2021-09-08 20:27:29 78

原创 hadoop--MapReduce概述

目录MapReduce定义MapReduce优缺点优点缺点MapReduce核心编程思想![在这里插入图片描述](https://img-blog.csdnimg.cn/942cb4177f9146ed9cfd98510b3cecc2.png?x-oss-process=image/watermark,type_ZHJvaWRzYW5zZmFsbGJhY2s,shadow_50,text_Q1NETiBARnVubnlQcmluY2Vf,size_20,color_FFFFFF,t_70,g_se,x_16

2021-09-07 01:19:06 276

原创 hadoop--MapReduce_WordCount词频统计案例

目录WordCount案例需求环境准备本地测试提交到集群测试集群测试源码程序1.WordCountMapper类2.WordCountReducer类3.WordCountDriver类WordCount案例需求: 统计一堆文件中单词出现的个数。1.输入数据hello hellohi hihahamapreduce2.期望输出数据hello 2hi 2haha 1map 1reduce 1需求分析:按照MapReduce编程规范,分别编写Mapper、Reducer、Driv

2021-09-07 01:18:36 1309

原创 hadoop--HDFS_DataNode工作机制

目录DataNode工作机制二级目录三级目录DataNode工作机制二级目录三级目录

2021-09-04 18:39:38 217

原创 hadoop--HDFS_NameNode和SecondaryNameNode工作机制

目录NN和2NN工作机制第一阶段第二阶段Fsimage和Edits解析Fsimage和Edits概念oiv查看Fsimage文件oev查看Edits文件CheckPoint时间设置NN和2NN工作机制NameNode中的元数据是存储在哪里?元数据存在镜像文件Fsimage和编辑日志Edist文件中。在Secondary NameNode节点中,会定期进行Fsimage和Edits的拷贝并合并,保证元数据的更新。1.假设存储在NameNode节点的磁盘中,因为要经常进行随机访问和响应客户请求,看起来效

2021-09-02 23:21:26 200

原创 hadoop--HDFS_机架感知与网络拓扑节点距离计算

目录机架感知二级目录三级目录机架感知1.第一个副本选择本地机架,距离近,上传速度快;2.第二个副本选择远程机架的随机节点,保证数据的可靠性;3.第三个副本选择第二个副本所在机架的随机节点,而不是其他机架,是同时兼顾可靠性+效率;二级目录三级目录...

2021-09-02 21:19:22 511

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除