ListenerDMT-CSDN博客

原创面试-数据库相关知识

inner join 基于连接条件仅显示两表匹配的记录left join 左表未匹配部分加两表匹配的记录right join 右表未匹配部分加两表匹配的记录full join 左表未匹配部分加右表未匹配部分以及两表匹配的记录2、char存储定长字符串，最多不超255个字符，用于固定长度的字段varchar2存储变长字符串，最多不超65532个字符3、on后的条件是关联条件，用于表的连接where后的条件是过滤条件，对连接后的结果进行过滤4、

2023-09-11 11:27:53 41

原创帆软report-全流程

注意：上父格的设置，是受单元格限制的，也就是只有相邻的单元格并且是上下关系，才可以设置上下父格关系。多选框和单选框的区别就在于，在设置多选框控件后要在多选框如下图处设置，返回类型。首先在红色处对我们的控件进行取名，然后在蓝色处对我们控件所要显示的值进行设置。因此在此项要求中，我们将每个需要随着订单id扩展的数据，左父格均设置订单id。设置参数的名字以及要传入的值，因为排序分升序、降序，这里我们设置两个动态参数。接着填写控件的值，这里我们是对每个空间筛选做了一张维度表，以地区为例。

2023-09-10 19:01:54 4287

原创 python进阶常用模块 +OS/SYS模块+ time/datetime模块+random随机模块

一、time/datetime模块1、引入一般来说对程序中时间的处理有以下三种时间的显示：在屏幕显示，记录日志等时间的转换：比如把字符串格式的日期转成python中的日期类型时间的运算：计算两个日期间的差值（1）time模块"""time 模块"""import time# 打印出系统时间到1970年1月1日相差的秒数print(time.time())# 将一个时间戳转换为当前时区的 struct_time,默认是当前系统时间戳print(tim.

2022-05-17 09:54:54 686 1

原创 python进阶之正则表达式操作

正则表达式在线验证网站regex101: build, test, and debug regex目录正则表达式在线验证网站一、正则表达式1、. 匹配字符2、 * 表示重复匹配任意次3、+重复匹配多次，不包括0次4、问号匹配 0 - 1 次5、花括号指定匹配次数6、贪婪模式和非贪婪模式7、转义字符 \8、匹配某种字符类型9、方括号表示要匹配指定的几个字符之一10、起始、结尾位置和单行、多行模式（1）起始...

2022-05-12 15:16:23 1539

原创 Python爬虫上手+RE+BS+XPATH

一、爬虫基础1、robots协议规定了网站哪些是可爬，哪些不可爬，君子协议2、http协议（1）概念服务器和客户端进行数据交互的一种形式（2）常用的请求头信息user-agent：请求载体的身份标识Connection ：请求完毕后，是断开连接，还是保持连接（3）常用响应头信息connect-type 服务器响应回客户端的数据类型3、https协议安全的超文本传输协议4、加密方式对称密钥加密非对称密钥加密证书密钥加密

2022-05-12 10:36:37 485

原创 Excel常用函数+数据透视表

2022-05-10 10:27:52 7638

原创 Shell编程脚本进阶

一、Datax全量自动化抽取脚本1、date 命令输出日期和时间（1）输出当前日期格式 2022-05-09第一种方法：[peizk@hadoop shelltest]$ date +%F2022-05-09第二种方法：[peizk@hadoop shelltest]$ date +%Y-%m-%d2022-05-09（2）1基础上输出日期加上当前时间第一种方法：[peizk@hadoop shelltest]$ date +%F-%T2022-05-

2022-05-09 23:29:25 216

原创帆软上手操作

一、连接数据库二、模板数据集三、预览数据将数据拖拽到，如下位置点击预览查看

2022-05-09 08:52:12 470

原创 Shell 编程

目录一、两种执行方式1、sh hello.sh2、./hello.sh二、一个简单的shell脚本1、需求2、编辑shell脚本如下三、shell中的特殊变量1、 $n(1) 基本语法(2)一个简单的输入参数小例子2、 $#(1)基本语法(2)一个简单的例子3、 $* 和 $@(1)基本语法4、 $?(1)基本语法(2)小例子四、运算符1、基本语法（1）$((运算式子)) 或者 $[运算式]（2）expr +...

2022-05-05 21:40:38 172

原创字符截取命令cut+awk

一、cut 命令1、准备一个文件如下2、提取第二列[root@hadoop ~]# cut -f 2 student.txt Nameaabbccdd3、提取多列[root@hadoop ~]# cut -f 2,4 student.txt Name Markaa 88bb 50cc 78dd 904、指定分隔符提取例如提取 /etc/passwd 文件是以 : 分隔的可以使用 [root@hadoop ~]#

2022-05-05 15:43:43 2332

原创 Spark---RDD序列化----宽窄依赖----RDD持久化----RDD广播变量

目录一、RDD序列化二、宽窄依赖1、RDD窄依赖2、RDD宽依赖三、RDD持久化1、大概解释图2、代码解决3、存储级别4、关于checkpoint检查点5、缓存和检查点的区别四、广播变量1、实现原理2、代码实现一、RDD序列化从计算的角度, 算子以外的代码都是在Driver端执行, 算子里面的代码都是在Executor端执行。那么在scala的函数式编程中，就会导致算子内经常会用到算子外的数据，这样就形成了闭包的效...

2022-05-01 20:17:05 1172

原创由美团技术文章整理---spark性能优化高级篇--数据倾斜调优与shuffle调优

文章地址1：Spark性能优化指南——基础篇 - 美团技术团队文章地址2：Spark性能优化指南——高级篇 - 美团技术团队一、关于性能优化高级篇--数据倾斜调优1、数据倾斜整体概述（1）数据倾斜发生时的现象绝大多数task执行得都非常快，但个别task执行极慢。比如，总共有1000个task，997个task都在1分钟之内执行完了，但是剩余两三个task却要一两个小时。这种情况很常见。原本能够正常执行的Spark作业，某天突然报出OOM（内存溢出）异常，观察异常栈，是我们写的

2022-04-28 11:39:21 1767

原创由美团技术文章整理---spark性能优化基础篇--开发调优与资源参数调优

文章地址1：Spark性能优化指南——基础篇 - 美团技术团队文章地址2：Spark性能优化指南——高级篇 - 美团技术团队一、关于性能优化基础篇--开发调优1、避免创建重复RDD（1）原理解释我们在开发一个Spark作业时，首先是基于某个数据源（比如Hive表或HDFS文件）创建一个初始的RDD；接着对这个RDD执行某个算子操作，然后得到下一个RDD；以此类推，循环往复，直到计算出最终我们需要的结果。在这个过...

2022-04-26 21:17:44 753

原创 Python进阶操作1+python脚本

一、关于打开文件两种方式"""第一种使用print进行输出，输出的目的地是文件"""fp = open(r"D:\test.txt","w")print("这是利用print输出",file = fp)fp.close()"""第二种使用文件读写操作进行输出"""with open(r"D:\aa.txt","w") as file: file.write("这是利用with 进行输出的")二、lambda函数和map函数"""lambda""""""一创建匿名函

2022-04-26 17:07:32 1392

原创数仓建表111111

一、dim层1、商品信息表（1）建表语句drop table if EXISTS dim_sku_info_df;CREATE TABLE if not EXISTS dim_sku_info_df(sku_id string comment '库存单元id',price double comment '价格',sku_name string comment '库存单元名称',sku_desc string comment '商品规格描述',weight double

2022-04-22 17:23:11 588

原创 RDD、DataFrame、DataSet互相转换+spark读取操作+sparkjoin选择策略

一、DataFrame是什么DataFrame是一种以RDD为基础的分布式数据集，类似于传统数据库中的二维表格。DataFrame与RDD的主要区别在于，前者带有schema元信息，即DataFrame所表示的二维表数据集的每一列都带有名称和类型。左侧的RDD[Person]虽然以Person为类型参数，但Spark框架本身不了解Person类的内部结构。而右侧的DataFrame却提供了详细的结构信息，使得 Spark SQL 可以清楚地知道该数据集中包含哪些列，每列的名称和类型各是什么。

2022-04-20 19:00:37 2349

原创 Flume介绍、基础架构+Flume安装+Flume开发脚本+编写Flume拦截器+埋点数据装载到Hive

一、Flume是什么？+项目背景1.Flume介绍Flume 基于流式架构是一个高可用的，高可靠的，分布式的海量日志采集、聚合和传输的系统。本项目 Flume 实时读取服务器本地目录下生成的埋点数据，将数据实时写入到HDFS。有的公司涉及几十甚至上百的的web服务器操作流程可能如下：二、Flume基础架构1、核心组件（1）AgentAgent 是一个 JVM 进程，它以事件的形式将数据从源头送至目标地。主要有 3 个部分组成，Source、Chann.

2022-04-19 14:48:32 5325

原创 RDD----RDD创建+RDD分区+RDD转换算子+RDD行动算子+实现wordc的11种方法

一、创建RDD1、从内存中创建package com.testimport org.apache.spark.{SparkConf, SparkContext}object Test { def main(args: Array[String]): Unit = { //准备环境 val conf = new SparkConf().setMaster("local[*]").setAppName("my app") val sc = new SparkCont

2022-04-18 15:56:45 2642

原创 Python上手基础

一、列表list1、访问特定元素# 访问特定元素content = [1,2,'ac','ok']print(content)print(content[2].title())print(content[-1])2、修改元素# 修改元素content = [1,2,'ac','ok']content[2] = "mysql"print(content)3、添加元素 # 最后添加元素content = [1,2,'ac','ok']content.append.

2022-04-16 19:58:06 1478

原创 spark使用IDEA实现算子

一、IDE安装Scala插件，并指定maven地址1、IDE安装Scala插件二、编辑我们的 pom.xml 文件内容如下：<?xml version="1.0" encoding="UTF-8"?><project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:sch.

2022-04-15 18:44:45 2032

原创服务器部署datax+使用Python脚本导数+项目数据

一、在服务器上部署Datax1、将安装包解压至app下[peizk@hadoop app]$ tar -zxvf datax.tar.gz -C ~/app/2、配置环境变量[root@hadoop ~]# vim /etc/profile添加如下#DATAX_HOMEexport DATAX_HOME=/home/peizk/app/dataxexport PATH=$PATH:$DATAX_HOME/bin不要忘记source！！！3、执行一下官方例子

2022-04-13 09:44:41 5618 1

原创基于阿里云官网文档-大数据开发治理平台 DataWorks研读+数据质量扩展+相应的大数据组件知识扩展

网址：阿里DataWorkers网址：数据集成概述 - 大数据开发治理平台 DataWorks - 阿里云目录网址：阿里DataWorkers网址：数据集成概述 - 大数据开发治理平台 DataWorks - 阿里云一、DataWorks工作流程1、数据集成（1）数据同步过程中几个必要的东西2、数据开发（1）写sql，但又不止写sql（2）调度配置3、运维工作（1）大体如下（2）周期任务实例DAG图（有向无环图）（3）任务状态（4）补数据4、...

2022-04-10 19:58:09 3848

原创 Spark基础+Scala环境搭建+ Spark源码编译部署+ Spark配置History Server +通过算子实现WC例子

一、Spark基础知识二、Scala环境搭建1、部署本地SCALA（1）官网下载2.12.15版本链接：Scala 2.12.15 | The Scala Programming Language（2）配置环境变量（3）cmd 检查一下本地 Scala部署完成2、部署服务器Scala（1）复制下载链接（2）使用wget命令下载[peizk@hadoop software]$ wget https://dow...

2022-04-09 18:54:52 3147

原创 Hive元数据表整理

2022-04-09 01:31:25 276

原创 PBI基本函数+日期函数+智能日期函数

目录一、基本的一些函数1、 RELATED 从多端出发，按关系取一端的值（返回列值）2、RELATEDTABLE从一端出发，按关系取多端的值（返回表）3、COUNT（不去重）与DISTINCTCOUNT（去重）二、日期函数1、date函数转换一个指定日期2、year/month/day/hour/minute/second 返回一个日期指定部分3、DATEVALUE 转换文本到日期4、edate日期加减月份5、eomonth返回指定日期月份最...

2022-04-08 18:28:42 6676

原创 Hive的UDF实现两种简单方法+通过编译源码添加UDF

目录一、实现简单的say_hello1、打开IDE在pom.xml中添加如下2、新建 UDFHello.java3、打包4、上传jar包至hive的lib下，并赋权5、进入Hive，添加jar包6、创建临时函数对应我们的jar包7、测试一下8、总结二、将UDF函数注册到元数据里1、在一的基础上退出hive重新进入，会发现添加的UDF函数没有了，不能用了2、在HDFS上创建一个文件夹将我们的jar包上传上去3、在hive上执行如下语句4、查看m...

2022-04-08 14:44:54 3757

原创 Hive场景问题+Hive排序+Hive中的join+Hive参数优化

目录一、一个实际场景，组合多的问题1、场景描述2、如何优化？二、Hive中的排序1、order by (全局排序)2、sort by (分区内排序)3、distribute by (分区排序)4、cluster by (简写)5、一个关于排序的实际场景例子（1）问题描述（2）解决方法三、hive中的join1、普通的join（left，inner等）（common/shuffle/reduce join）2、map join大小表...

2022-04-08 10:23:17 1287

原创 PBI的Dax用法总结

目录一、返回表计算1、FILTER（1）过滤出家具表（2）求邮寄方式是标准级订单总销售额可以用sumx 和filter嵌套（3）filter总结2、ALL（1）当使用all（表.列名），它会返回列中不重复的值（2）当使用all（表），它会返回表中所有的值（3）建立新的邮寄方式是标准级订单总销售额（4）all 总结3、values 与distinct（1）在参数为列时均返回不重复值（2）values可以返回未关联上的空值（两个维度建立一对多等关系时，.

2022-04-07 19:48:46 2900 1

原创 hive扩展题目

一、lateral view 用法（1）首先了解 split用法用来按照指定字符串切割字符返回切割后的字符串数组如原表为使用split返回的（2）explode函数explode()函数用于打散行的函数（将一行的数据拆分成多行，它的参数必须为map或array）。这个函数常和split()并用（3）lateral view函数在（2）的基础上如果我还想要age可以使用lateralview进行合并lateralview...

2022-04-06 12:52:43 454

原创 hive分区+hive动态分区+hive函数+使用hive实现WC

目录一、hive分区表1、创建一个分区表2、插入一个分区数据3、查看表数据和HDFS4、再插另一个分区数据5、查看表数据和HDFS6、分区表的好处二、hive动态分区1、定义2、创建一个动态分区表3、插入数据4、查看表中数据和HDFS三、函数function1、函数分类2、常用的一些函数整理（1）时间相关3、JSON（1）创建一个存放json数据格式的表（2）插入几条json格式数据（3）查看数据（4）使用 j...

2022-04-05 17:58:32 3092

原创 Hive基本操作+库语法+表语法+内外表区别

目录一、一些基本hive操作1、hive -e +select语句2、hive -f + sql脚本文件3、hive -i二、库相关语法1、create 创建数据库2、drop 删除数据库3、use 使用库三、表相关语法1、create创建表2、查看表3、插入表数据load / insert4、修改表、删除表、清空表四、内部表（MANAGED）、外部表（EXTERNAL）区别五、作业1、stored as 的含...

2022-04-04 01:53:32 1620

原创 Hive简介+与关系数据库比较+Hive安装+测试连接

学习hive --》官网一、hive简介hadoop 广义上：大数据生态圈，其中hive是使用SQL完成大数据统计分析的工具狭义上：HDFS MR YARNHDFS ：hive的数据是存在HDFS上的（Distributed storge分布式存储），元数据（Metadata）存储在对应的底层关系数据库。一般是MysqlMR（计算引擎）：hive的作业（sql）是通过hive的框架，翻译成MR作业这里的引擎也可以是 Tez，Spark不管底层使用什么引擎，对于用户来说是不感.

2022-04-02 16:24:09 4106

原创 pbi 度量值计算列+日期表+层次结构+数据分组+交互式分析+横向纵向可视化选择+轴、图例、值拖拽

一、日期表日期表会填充跟日期相关的信息，比如有专门的列（日期列）（唯一不重复且不间断），都会有他的年份月份等信息（有助于我们不同层级的去分析数据）。pbi 内置日期表会将pbi中时间日期格式的字段自动内置日期表标记日期表层次结构取消（1）在字段处取消（2）在设置里取消二、层级结构（1）直接拖几个含义（2）创建层次结构在最大范围创建层次结构，接着由大到小依次添加进去。三、数据分组（1）知晓分组规则箱大小...

2022-03-31 16:13:44 3747

原创 Power BI前置知识+ 一张报表制作的流程

一、一些前置知识1、BI是什么？通过前端工具实现数据可视化2、常用的一些BI工具PowerBI 帆软 tableau ibm cognos3、什么是PowerBi简单来说一套连接多个数据源并提供数据分析的商业智能分析工具。4、PBI的产品（面试点）Power bi desktop 用于个人开发（仅仅对于个人）Power bi pro (收费 ) 建立各种工作区（对人员权限开放） Power bi Premium （...

2022-03-28 10:32:52 2553

原创本地IDE编写执行MR+MR调优+数据倾斜

一、环境准备本地搭建hadoop环境（1）将hadoop相关文件放到目录下如下配置环境变量打开cmd窗口输入hadoop如下说明配置成功

2022-03-27 13:17:51 2738

原创 YARN基础+Yarn组件+Yarn架构和工作流程+Yarn三种调度器+MR流程+zookeeper

一、YARN是什么YARN负责Hadoop中得资源管理（包括cpu、内存、磁盘、网络IO等），以及调度运行在yarn上的任务。二、YARN主要组件说明YARN的主要组件：ResourceManager、NodeManager、ApplicationMaster和Container（1）ResourceManager（RM）主要负责处理客户端请求对各NM上的资源进行统一调度和管理，给ApplicationMaster分配空闲的Container 运行并监控其运行状态。主要由两个组件构.

2022-03-25 22:27:08 4449

原创数仓基础+ONEDATA建模+各类事实表比较

（1）什么是数仓？数据仓库是一个面向主题的、集成的、随时间变化的、但信息本身相对稳定的数据集合，用于对管理决策过程的支持。面向主题：基于某个明确的主题，仅需要与该主题相关的数据集成的：从不同的数据源采集数据到同一个数据源，此过程会有一些ETL操作。随时间变化的：关键数据隐式或者显式的基于时间变化相对稳定：数据仓库的数据一般是反应相当长一段时间内的数据内容(2)为什么要对数据仓库进行建模？清晰、性能、质量、效率（3）关于 OLTP、OLAPOLTP翻译为联机事务处理， OL

2022-03-21 20:05:16 3186

原创 HDFS读流程+HDFS写流程

一、HDFS写流程流程图如下：过程：1、HDFS Client调用Filesystem.creat(filePath)方法，通过RPC（远程过程调用，简单的理解是一个节点请求另一个节点提供的服务）与NameNode建立通讯。2、NN会检查这个文件是否存在？是否可以创建?如果可以，NN会触发副本放置策略，计算出上传的块和相应的DN节点，然后将这个信息返回给Client的FsDataOutputStream对象。3、Client和对应的一个 DN 建立PipeLine连接（本质上也是一个

2022-03-21 15:28:56 1021

原创 Hadoop创建回收站+HDFS其它命令+HDFS主从架构+HDFS优缺点

一、创建回收站（1）编辑配置文件core-site.xml添加内容如下<property> <name>fs.trash.interval</name> <value>10080</value></property>10080 代表 10080分钟即7天也就是回收站保存7天，7天后删除（2）重新启动集群进行测试在hdfs上新建test1、test2文件夹对test 进行删除

2022-03-20 14:53:12 1270

原创 Hadoop修改pid文件存储+配置YARN+运行默认YARN例子

一、修改hadoop pid 文件的位置root下查看 /tmp文件现将其修改至用户下的的 tmp文件夹修改文件[peizk@hadoop hadoop]$ vim hadoop-env.sh

2022-03-17 16:30:56 1094

空空如也

关于数据库的问题，唯一和非重复的概念