自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(42)
  • 问答 (1)
  • 收藏
  • 关注

原创 面试-数据库相关知识

inner join 基于连接条件仅显示两表匹配的记录left join 左表未匹配部分加两表匹配的记录right join 右表未匹配部分加两表匹配的记录full join 左表未匹配部分加右表未匹配部分以及两表匹配的记录2、char存储定长字符串,最多不超255个字符,用于固定长度的字段varchar2存储变长字符串,最多不超65532个字符3、on后的条件是关联条件,用于表的连接where后的条件是过滤条件,对连接后的结果进行过滤4、

2023-09-11 11:27:53 41

原创 帆软report-全流程

注意:上父格的设置,是受单元格限制的,也就是只有相邻的单元格并且是上下关系,才可以设置上下父格关系。多选框 和单选框的区别就在于,在设置多选框控件后要在多选框如下图处设置,返回类型。首先在红色处对我们的控件进行取名,然后在蓝色处对我们控件所要显示的值进行设置。因此在此项要求中,我们将每个需要随着订单id扩展的数据,左父格均设置订单id。设置参数的名字以及要传入的值,因为排序分升序、降序,这里我们设置两个动态参数。接着填写控件的值,这里我们是对每个空间筛选做了一张维度表,以地区为例。

2023-09-10 19:01:54 4287

原创 python进阶常用模块 +OS/SYS模块+ time/datetime模块+random随机模块

一、time/datetime模块1、引入一般来说对程序中时间的处理有以下三种时间的显示:在屏幕显示,记录日志等时间的转换:比如把字符串格式的日期转成python中的日期类型时间的运算:计算两个日期间的差值(1)time模块"""time 模块"""import time# 打印出系统时间到1970年1月1日相差的秒数print(time.time())# 将一个时间戳转换为当前时区的 struct_time,默认是当前系统时间戳print(tim.

2022-05-17 09:54:54 686 1

原创 python进阶之正则表达式操作

正则表达式在线验证网站regex101: build, test, and debug regex目录正则表达式在线验证网站一、正则表达式1、. 匹配字符2、 * 表示重复匹配任意次3、+重复匹配多次 ,不包括0次4、问号 匹配 0 - 1 次5、花括号 指定匹配次数6、贪婪模式和非贪婪模式7、转义字符 \8、匹配某种字符类型9、方括号 表示要匹配 指定的几个字符之一10、起始、结尾位置 和 单行、多行模式(1)起始...

2022-05-12 15:16:23 1539

原创 Python爬虫上手+RE+BS+XPATH

一、爬虫基础1、robots协议规定了网站哪些是可爬,哪些不可爬,君子协议2、http协议(1)概念服务器和客户端进行数据交互的一种形式(2)常用的请求头信息user-agent:请求载体的身份标识Connection :请求完毕后,是断开连接,还是保持连接(3) 常用响应头信息connect-type 服务器响应回客户端的数据类型3、https协议安全的超文本传输协议4、加密方式对称密钥加密非对称密钥加密证书密钥加密

2022-05-12 10:36:37 485

原创 Excel常用函数+数据透视表

2022-05-10 10:27:52 7638

原创 Shell编程脚本进阶

一、Datax全量自动化抽取脚本1、date 命令 输出日期和时间(1)输出当前日期 格式 2022-05-09第一种方法:[peizk@hadoop shelltest]$ date +%F2022-05-09第二种方法:[peizk@hadoop shelltest]$ date +%Y-%m-%d2022-05-09(2)1基础上输出日期加上当前时间第一种方法:[peizk@hadoop shelltest]$ date +%F-%T2022-05-

2022-05-09 23:29:25 216

原创 帆软上手操作

一、连接数据库二、模板数据集三、预览数据将数据拖拽到,如下位置点击预览查看

2022-05-09 08:52:12 470

原创 Shell 编程

目录一、两种执行方式1、sh hello.sh2、./hello.sh二、一个简单的shell脚本1、需求2、编辑shell脚本如下三、shell中的特殊变量1、 $n(1) 基本语法(2)一个简单的输入参数小例子2、 $#(1)基本语法(2)一个简单的例子3、 $* 和 $@(1)基本语法4、 $?(1)基本语法(2)小例子四、运算符1、基本语法(1)$((运算式子)) 或者 $[运算式](2)expr +...

2022-05-05 21:40:38 172

原创 字符截取命令cut+awk

一、cut 命令1、准备一个文件 如下2、提取第二列[root@hadoop ~]# cut -f 2 student.txt Nameaabbccdd3、提取多列[root@hadoop ~]# cut -f 2,4 student.txt Name Markaa 88bb 50cc 78dd 904、指定分隔符提取例如 提取 /etc/passwd 文件 是以 : 分隔的可以使用 [root@hadoop ~]#

2022-05-05 15:43:43 2332

原创 Spark---RDD序列化----宽窄依赖----RDD持久化----RDD广播变量

目录一、RDD序列化二、宽窄依赖1、RDD窄依赖2、RDD宽依赖三、RDD持久化1、大概解释图2、代码解决3、存储级别4、关于checkpoint检查点5、缓存和检查点的区别四、广播变量1、实现原理2、代码实现一、RDD序列化从计算的角度, 算子以外的代码都是在Driver端执行, 算子里面的代码都是在Executor端执行。那么在scala的函数式编程中,就会导致算子内经常会用到算子外的数据,这样就形成了闭包的效...

2022-05-01 20:17:05 1172

原创 由美团技术文章整理---spark性能优化高级篇--数据倾斜调优与shuffle调优

文章地址1:Spark性能优化指南——基础篇 - 美团技术团队文章地址2:Spark性能优化指南——高级篇 - 美团技术团队一、关于性能优化高级篇--数据倾斜调优1、数据倾斜整体概述(1)数据倾斜发生时的现象绝大多数task执行得都非常快,但个别task执行极慢。比如,总共有1000个task,997个task都在1分钟之内执行完了,但是剩余两三个task却要一两个小时。这种情况很常见。原本能够正常执行的Spark作业,某天突然报出OOM(内存溢出)异常,观察异常栈,是我们写的

2022-04-28 11:39:21 1767

原创 由美团技术文章整理---spark性能优化基础篇--开发调优与资源参数调优

文章地址1:Spark性能优化指南——基础篇 - 美团技术团队文章地址2:Spark性能优化指南——高级篇 - 美团技术团队一、关于性能优化基础篇--开发调优1、避免创建重复RDD(1)原理解释我们在开发一个Spark作业时,首先是基于某个数据源(比如Hive表或HDFS文件)创建一个初始的RDD;接着对这个RDD执行某个算子操作,然后得到下一个RDD;以此类推,循环往复,直到计算出最终我们需要的结果。在这个过...

2022-04-26 21:17:44 753

原创 Python进阶操作1+python脚本

一、关于打开文件两种方式"""第一种使用print进行输出,输出的目的地是文件"""fp = open(r"D:\test.txt","w")print("这是利用print输出",file = fp)fp.close()"""第二种 使用文件读写操作进行输出"""with open(r"D:\aa.txt","w") as file: file.write("这是利用with 进行输出的")二、lambda函数和map函数"""lambda""""""一 创建匿名函

2022-04-26 17:07:32 1392

原创 数仓建表111111

一、dim层1、商品信息表(1)建表语句drop table if EXISTS dim_sku_info_df;CREATE TABLE if not EXISTS dim_sku_info_df(sku_id string comment '库存单元id',price double comment '价格',sku_name string comment '库存单元名称',sku_desc string comment '商品规格描述',weight double

2022-04-22 17:23:11 588

原创 RDD、DataFrame、DataSet​​​​互相转换+spark读取操作+sparkjoin选择策略

一、DataFrame是什么DataFrame是一种以RDD为基础的分布式数据集,类似于传统数据库中的二维表格。DataFrame与RDD的主要区别在于,前者带有schema元信息,即DataFrame所表示的二维表数据集的每一列都带有名称和类型。左侧的RDD[Person]虽然以Person为类型参数,但Spark框架本身不了解Person类的内部结构。而右侧的DataFrame却提供了详细的结构信息,使得 Spark SQL 可以清楚地知道该数据集中包含哪些列,每列的名称和类型各是什么。

2022-04-20 19:00:37 2349

原创 Flume介绍、基础架构+Flume安装+Flume开发脚本+编写Flume拦截器+埋点数据装载到Hive

一、Flume是什么?+项目背景1.Flume介绍Flume 基于流式架构是一个高可用的,高可靠的,分布式的海量日志采集、聚合和传输的系统。本项目 Flume 实时读取服务器本地目录下生成的埋点数据,将数据实时写入到HDFS。有的公司涉及几十甚至上百的的web服务器操作流程可能如下:二、Flume基础架构1、核心组件(1)AgentAgent 是一个 JVM 进程,它以事件的形式将数据从源头送至目标地。主要有 3 个部分组成,Source、Chann.

2022-04-19 14:48:32 5325

原创 RDD----RDD创建+RDD分区+RDD转换算子+RDD行动算子+实现wordc的11种方法

一、创建RDD1、从内存中创建package com.testimport org.apache.spark.{SparkConf, SparkContext}object Test { def main(args: Array[String]): Unit = { //准备环境 val conf = new SparkConf().setMaster("local[*]").setAppName("my app") val sc = new SparkCont

2022-04-18 15:56:45 2642

原创 Python上手基础

一、列表list1、访问特定元素# 访问特定元素content = [1,2,'ac','ok']print(content)print(content[2].title())print(content[-1])2、修改元素# 修改元素content = [1,2,'ac','ok']content[2] = "mysql"print(content)3、添加元素 # 最后添加元素content = [1,2,'ac','ok']content.append.

2022-04-16 19:58:06 1478

原创 spark使用IDEA实现算子

一、IDE安装Scala插件,并指定maven地址1、IDE安装Scala插件二、编辑我们的 pom.xml 文件内容如下:<?xml version="1.0" encoding="UTF-8"?><project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:sch.

2022-04-15 18:44:45 2032

原创 服务器部署datax+使用Python脚本导数+项目数据

一、在服务器上部署Datax1、将安装包解压至app下[peizk@hadoop app]$ tar -zxvf datax.tar.gz -C ~/app/2、配置环境变量[root@hadoop ~]# vim /etc/profile添加如下#DATAX_HOMEexport DATAX_HOME=/home/peizk/app/dataxexport PATH=$PATH:$DATAX_HOME/bin不要忘记source!!!3、执行一下官方例子

2022-04-13 09:44:41 5618 1

原创 基于阿里云官网文档-大数据开发治理平台 DataWorks研读+数据质量扩展+相应的大数据组件知识扩展

网址:阿里DataWorkers网址:数据集成概述 - 大数据开发治理平台 DataWorks - 阿里云目录网址:阿里DataWorkers网址:数据集成概述 - 大数据开发治理平台 DataWorks - 阿里云一、DataWorks工作流程1、数据集成(1)数据同步过程中几个必要的东西2、数据开发(1)写sql,但又不止写sql(2)调度配置3、运维工作(1)大体如下(2)周期任务实例DAG图(有向无环图)(3)任务状态(4)补数据4、...

2022-04-10 19:58:09 3848

原创 Spark基础+Scala环境搭建+ Spark源码编译部署+ Spark配置History Server +通过算子实现WC例子

一、Spark基础知识二、Scala环境搭建1、部署本地SCALA(1)官网下载2.12.15版本链接:Scala 2.12.15 | The Scala Programming Language(2)配置环境变量(3)cmd 检查一下本地 Scala部署完成2、部署服务器Scala(1)复制下载链接(2)使用wget命令下载[peizk@hadoop software]$ wget https://dow...

2022-04-09 18:54:52 3147

原创 Hive元数据表整理

2022-04-09 01:31:25 276

原创 PBI基本函数+日期函数+智能日期函数

目录一、基本的一些函数1、 RELATED 从多端出发,按关系取一端的值(返回列值)2、RELATEDTABLE从一端出发,按关系取多端的值(返回表)3、COUNT(不去重)与DISTINCTCOUNT(去重)二、日期函数1、date函数 转换一个指定日期2、year/month/day/hour/minute/second 返回一个日期指定部分3、DATEVALUE 转换文本到日期4、edate日期加减月份5、eomonth返回指定日期月份最...

2022-04-08 18:28:42 6676

原创 Hive的UDF实现两种简单方法+通过编译源码添加UDF

目录一、实现简单的say_hello1、打开IDE在pom.xml中添加如下2、新建 UDFHello.java3、打包4、上传jar包至hive的lib下,并赋权5、进入Hive,添加jar包6、创建临时函数对应我们的jar包7、测试一下8、总结二、将UDF函数注册到元数据里1、在一的基础上退出hive重新进入,会发现添加的UDF函数没有了,不能用了2、在HDFS上创建一个文件夹将我们的jar包上传上去3、在hive上执行如下语句4、查看m...

2022-04-08 14:44:54 3757

原创 Hive场景问题+Hive排序+Hive中的join+Hive参数优化

目录一、一个实际场景,组合多的问题1、场景描述2、如何优化?二、Hive中的排序1、order by (全局排序)2、sort by (分区内排序)3、distribute by (分区排序)4、cluster by (简写)5、一个关于排序的实际场景例子(1)问题描述(2)解决方法三、hive中的join1、普通的join(left,inner等)(common/shuffle/reduce join)2、map join大小表...

2022-04-08 10:23:17 1287

原创 PBI的Dax用法总结

目录一、返回表计算1、FILTER(1) 过滤出家具表(2)求邮寄方式是标准级订单总销售额可以用sumx 和filter嵌套(3)filter总结2、ALL(1)当使用all(表.列名),它会返回列中不重复的值(2)当使用all(表),它会返回表中所有的值(3)建立新的邮寄方式是标准级订单总销售额(4)all 总结3、values 与distinct(1)在参数为列时均返回不重复值(2)values可以返回未关联上的空值(两个维度建立一对多等关系时,.

2022-04-07 19:48:46 2900 1

原创 hive扩展题目

一、lateral view 用法(1)首先了解 split用法用来按照指定 字符串 切割字符 返回切割后的字符串数组如原表为使用split返回的(2)explode函数explode()函数用于打散行的函数(将一行的数据拆分成多行,它的参数必须为map或array)。这个函数常和split()并用(3)lateral view函数在(2)的基础上如果我还想要age可以使用lateralview进行合并lateralview...

2022-04-06 12:52:43 454

原创 hive分区+hive动态分区+hive函数+使用hive实现WC

目录一、hive分区表1、创建一个分区表2、插入一个分区数据3、查看表数据和HDFS4、再插另一个分区数据5、查看表数据和HDFS6、分区表的好处二、hive动态分区1、定义2、创建一个动态分区表3、插入数据4、查看表中数据和HDFS三、函数function1、函数分类2、常用的一些函数整理(1)时间相关3、JSON(1)创建一个存放json数据格式的表(2)插入几条json格式数据(3)查看数据(4)使用 j...

2022-04-05 17:58:32 3092

原创 Hive基本操作+库语法+表语法+内外表区别

目录一、一些基本hive操作1、hive -e +select语句2、hive -f + sql脚本文件3、hive -i二、库相关语法1、create 创建数据库2、drop 删除数据库3、use 使用库三、表相关语法1、create创建表2、查看表3、插入表数据load / insert4、修改表、删除表、清空表四、内部表(MANAGED)、外部表(EXTERNAL)区别五、作业1、stored as 的含...

2022-04-04 01:53:32 1620

原创 Hive简介+与关系数据库比较+Hive安装+测试连接

学习hive --》官网一、hive简介hadoop 广义上:大数据生态圈,其中hive是使用SQL完成大数据统计分析的工具狭义上:HDFS MR YARNHDFS :hive的数据是存在HDFS上的(Distributed storge分布式存储),元数据(Metadata)存储在对应的底层关系数据库。一般是MysqlMR(计算引擎):hive的作业(sql)是通过hive的框架,翻译成MR作业这里的引擎也可以是 Tez,Spark不管底层使用什么引擎,对于用户来说是不感.

2022-04-02 16:24:09 4106

原创 pbi 度量值计算列+日期表+层次结构+数据分组+交互式分析+横向纵向可视化选择+轴、图例、值拖拽

一、日期表日期表会填充跟日期相关的信息 ,比如有专门的列(日期列)(唯一 不重复 且 不间断) ,都会有他的年份月份 等信息 (有助于我们不同层级的去分析数据)。pbi 内置日期表会将pbi中时间日期格式的字段 自动内置日期表标记日期表 层次结构取消 (1)在字段处取消(2)在设置里取消二、层级结构(1)直接拖几个含义(2)创建层次结构在最大范围创建层次结构,接着由大到小依次添加进去。三、数据分组(1)知晓分组规则 箱大小...

2022-03-31 16:13:44 3747

原创 Power BI前置知识+ 一张报表制作的流程

一、一些前置知识1、BI是什么?通过前端工具实现数据可视化2、常用的一些BI工具PowerBI 帆软 tableau ibm cognos3、什么是PowerBi简单来说一套连接多个数据源并提供数据分析的商业智能分析工具。4、PBI的产品(面试点)Power bi desktop 用于个人开发 (仅仅对于个人)Power bi pro (收费 ) 建立各种工作区(对人员权限开放 ) Power bi Premium (...

2022-03-28 10:32:52 2553

原创 本地IDE编写执行MR+MR调优+数据倾斜

一、环境准备本地搭建hadoop环境(1)将hadoop相关文件放到目录下如下配置环境变量打开cmd窗口输入hadoop如下 说明配置成功

2022-03-27 13:17:51 2738

原创 YARN基础+Yarn组件+Yarn架构和工作流程+Yarn三种调度器+MR流程+zookeeper

一、YARN是什么YARN负责Hadoop中得资源管理(包括cpu、内存、磁盘、网络IO等),以及调度运行在yarn上的任务。二、YARN主要组件说明YARN的主要组件:ResourceManager、NodeManager、ApplicationMaster和Container(1)ResourceManager(RM)主要负责处理客户端请求对各NM上的资源进行统一调度和管理,给ApplicationMaster分配空闲的Container 运行并监控其运行状态。主要由两个组件构.

2022-03-25 22:27:08 4449

原创 数仓基础+ONEDATA建模+各类事实表比较

(1)什么是数仓?数据仓库是一个面向主题的、集成的、随时间变化的、但信息本身相对稳定的数据集合,用于对管理决策过程的支持。面向主题:基于某个明确的主题,仅需要与该主题相关的数据集成的:从不同的数据源采集数据到同一个数据源,此过程会有一些ETL操作。随时间变化的:关键数据隐式或者显式的基于时间变化相对稳定:数据仓库的数据一般是反应相当长一段时间内的数据内容(2)为什么要对数据仓库进行建模?清晰、性能、质量、效率(3)关于 OLTP、OLAPOLTP翻译为联机事务处理, OL

2022-03-21 20:05:16 3186

原创 HDFS读流程+HDFS写流程

一、HDFS写流程流程图如下:过程:1、HDFS Client调用Filesystem.creat(filePath)方法,通过RPC(远程过程调用,简单的理解是一个节点请求另一个节点提供的服务)与NameNode建立通讯。2、NN会检查这个文件是否存在?是否可以创建?如果可以,NN会触发副本放置策略,计算出上传的块和相应的DN节点,然后将这个信息返回给Client的FsDataOutputStream对象。3、Client和对应的一个 DN 建立PipeLine连接(本质上也是一个

2022-03-21 15:28:56 1021

原创 Hadoop创建回收站+HDFS其它命令+HDFS主从架构+HDFS优缺点

一、创建回收站(1)编辑配置文件core-site.xml添加内容如下<property> <name>fs.trash.interval</name> <value>10080</value></property>10080 代表 10080分钟 即7天 也就是回收站保存7天,7天后删除(2)重新启动集群进行测试在hdfs上新建test1、test2文件夹对test 进行删除

2022-03-20 14:53:12 1270

原创 Hadoop修改pid文件存储+配置YARN+运行默认YARN例子

一、修改hadoop pid 文件的位置root下查看 /tmp文件现将其修改至 用户下的的 tmp文件夹修改文件[peizk@hadoop hadoop]$ vim hadoop-env.sh

2022-03-17 16:30:56 1094

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除