落幕7-CSDN博客

数据湖是一个以原始格式存储数据的存储库或系统。它按原样存储数据，而无需事先对数据进行结构化处理。一个数据湖可以存储结构化数据（如关系型数据库中的表），半结构化数据（如CSV、日志、XML、JSON），非结构化数据（如电子邮件、文档、PDF）二进制数据（如图形、音频、视频）。数据湖是一个集中式存储库，允许您以任意规模存储所有结构化和非结构化数据。您可以按原样存储数据（无需先对数据进行结构化处理），并运行不同类型的分析 – 从控制面板和可视化到大数据处理、实时分析和机器学习，以指导做出更好的决策。

2023-05-04 11:15:02 929

原创 Gpt详解

OpenAI

2022-12-15 17:22:28 3630 4

原创问题-fuxi job failed ,cased by:Invalid decimal format.

错误：FAILED：ODPS-0121095:Invalid arguments - in function cast ,string datetime’s format must be yyyy-mm-dd hh:mi:ss, input string is : 20010131。原因：贴源层表的字段里数据是20010131，而插入表对应的字段类型是datetime，要求是年月日时分秒。原因：贴源层的表里有的字段里有空格，而对应共享层表的字段类型是decimal,所以插入错误。

2022-11-14 17:25:02 1856

原创 count(1) 、count(*) 和 count(列名)对比 and where对比having

count(*) 、count(1)、count(列)区别，where和having区别

2022-09-06 16:36:25 456

原创阿里云开发中分区和列操作

阿里云分区操作和列操作

2022-08-08 15:45:20 902

转载 Markdown使用

这里写自定义目录标题欢迎使用Markdown编辑器新的改变功能快捷键合理的创建标题，有助于目录的生成如何改变文本的样式插入链接与图片如何插入一段漂亮的代码片生成一个适合你的列表创建一个表格设定内容居中、居左、居右SmartyPants创建一个自定义列表如何创建一个注脚注释也是必不可少的KaTeX数学公式新的甘特图功能，丰富你的文章UML 图表FLowchart流程图导出与导入导出导入欢迎使用Markdown编辑器你好！这是你第一次使用 Markdown编辑器所展示的欢迎页。如果你想学习如何使用Mar

2022-05-13 15:45:59 168

原创 Hivesql10题

手写HQL10题

2022-05-13 15:00:10 704

原创 regexp_extract和regexp_replace

正则regexp_extractregexp_replaceregexp_extractregexp_extract(string subject,string pattern,int index)返回值: string说明：将字符串subject按照pattern正则表达式的规则拆分，返回index指定的字符。第⼀参数：要处理的字段第⼆参数：需要匹配的正则表达式第三个参数：为0 是显示与之匹配的整个字符串为1 是显示第⼀个括号⾥⾯的为2 是显示第二个括号里的字段regexp_

2022-05-09 15:53:21 865

原创 Dbeaver连接Linux上oracle报listener refused错误

Dbeaver去连接Linux上的oracle出现listener refused连接问题Listener refused the connection with the following error:ORA-12514, TNS:listener does not currently know of service requested in connect descriptor开始以为是那什么监听端口没开导致连不上于是去：lsnrctl status然后发现监听端口没问题，在正常的监听整了

2022-03-24 15:58:23 3258

原创 Linux上的oracle11g安装（提供安装包链接）以及其他问题注解

Linux上的oracle11g安装'''提供安装包链接'''oracle11g--linux安装包获取详细安装步骤如下首先是修改bash_profile文件时监听在每次重启的时候要查看是否开启安装完成后进入SQL命令行出现oracle not available，出现ORA-01034和ORA-27101等sqlplus common not found用sqoop从oracle导数据到hive遇到的问题ERROR hive.HiveConfig: Could not load org.apache.ha

2022-03-23 16:51:52 13152 3

原创常见SQL优化简单总结

文章目录SQL优化一、避免不走索引的场景二、select语句其他优化三、增删改DML语句优化四、查询条件优化五、建表优化SQL优化一、避免不走索引的场景1.避免字段开头使用模糊查询，优化方式：尽量在字段后面使用模糊查询2.尽量避免使用in和not in，优化方式：对于连续数值可以用between代替，如果是子查询可以用exists代替3.尽量避免使用or，优化方式：可以用union代替or4.尽量避免进行null值的判断，优化方式：可以给字段添加默认值0，对0进行判断5.尽量避免在where条

2022-02-23 11:42:04 1724

转载 Flink重启策略

目录概览重启策略固定间隔 (Fixed Delay) 重启策略失败率 (Failure Rate) 重启策略无重启 (No Restart) 策略回调 (Fallback) 重启策略 Flink 支持多种不同的重启策略，这些策略控制了在失败情况下工作要如何重启。集群在启动时会伴随一个默认的重启策略，在没有定义具体工作重启策略时会使用该默认策略。如果在工作提交时制定一个重启策略，该策略会覆盖集群的默认设定。概览默认的重启策略可以...

2022-01-10 16:12:04 1210

原创 Elasticsearch常用命令

ES 常用命令RESTful APIcurl -X<VERB> '<PROTOCOL>://<HOST>:<PORT>/<PATH>?<QUERY_STRING>' -d '<BODY>'参数描述VERB适当的 HTTP 方法或谓词 : GET、 POST、 PUT、 HEAD 或者 DELETE。PROTOCOLhttp 或者 https（如果你在 Elasticsearch 前面

2022-01-04 09:45:31 1203

原创 Elasticsearch7.13+kibana7.13安装

文章目录安装ES 7.13.11、上传解压，配置环境变量2、修改配置文件elasticsearch.yml3、创建es启动用户并赋权（es不能使用root启动）centos6.5需要修改的配置4、启动es安装kibana 7.13.11、上传解压，2、修改配置文件3、启动kibana安装ES 7.13.11、上传解压，配置环境变量# 上传到/usr/local/soft/目录下tar -xvf elasticsearch-7.13.1-linux-x86_64.tar.gz2、修改配置文件ela

2021-12-31 16:31:47 562

原创 electerm代替xshell和xftp

文章目录electerm安装和使用安装使用快捷键electerm安装和使用由于某些特殊原因不让用xhell和xftp(都懂吧…)很难受，自己也找了其他的软件来代替xshell和xftp但是都用的不是很顺手，毕竟用那两个时间长了，唉难搞！！！试了好几个也就electerm好用点，还有其他的像finalshell、windterm、termius等就没有过多了解了（安装后试了一下感觉不顺手）下面有两种途径下载安装包：（网盘里的是在windows上的安装包）1.electerm百度网盘下载百

2021-12-28 15:37:01 3921 1

原创数据中台建设

文章目录数据中台建设五步落地法1.数据中台建设-数据资源盘点2.数据中台建设-数据应用规划3.数据中台建设-数据中台设计4.数据中台建设-数据中台开发5.数据中台建设-数据中台运营数据中台建设五步落地法1.数据资源的盘点技术情况的盘点数据情况的盘点业务情况的盘点2.数据应用的规划企业架构梳理引用场景规划指标标签指定与管理3.数据中台的建设技术平台框架产品的选择数据模型的设计算法模型的设计4.数据中台的开发数据同步和数据建模实施数据应用实施数据资产管理构建

2021-12-06 19:03:57 1483

原创 OneData数据模型

文章目录OneData数据模型业务过程：原子指标：业务限定：派生指标：OneData数据模型-逻辑架构OneData数据模型-指标体系生成OneData数据模型业务过程：指在业务中发生的最小单元的行为或事务，不可再拆分事件，比如创建订单，浏览网页等等。业务过程产生的行为明细，比如支付了一笔订单，浏览了某个网页，最终都会汇集到事实表中，而大部分情况下，事实表都会聚焦于某个特定的业务过程。原子指标：原子指标是对指标统计口径、具体算法的一个抽象。业务限定：在进行数据分析时，有时需要根据业务规则

2021-12-04 18:22:34 841

原创 Flink读Kafka写入HBase

文章目录Flink从kafka读数据写入HBase读取Hbase数据Flink从kafka读数据写入HBaseFlink官网帮助文档链接先导入依赖<dependency> <groupId>org.apache.flink</groupId> <artifactId>flink-connector-hbase_2.11</artifactId> <version&

2021-11-29 20:44:39 1452

原创 Flink整合Hive

文章目录Flink整合Hive1、将整合需要的jar包上传到flink的lib目录2、启动hive元数据服务3、如果在sql-client中使用hive的catalog4、在sql-client中使用hive的catalog5、idea里写flinkSQL打包上传到集群运行Flink整合Hive1、将整合需要的jar包上传到flink的lib目录#需要三个jar包flink-sql-connector-hive-1.2.2_2.11-1.11.0.jarhive-exec-1.2.1.jarhi

2021-11-29 20:28:51 2394 4

原创 Flink的端对端精准一次处理（Exactly-Once）

端对端精准一次处理Two-Phase Commit(两阶段提交协议)两阶段提交Flink中应用

2021-11-27 21:41:28 3671

原创 Flink的Time、Window、State、Checkpoint

文章目录TimeWindowTime WindowSession WindowCount WindowStatecheckPointTimeTime的概念: Event Time and Processing Time（事件时间和处理时间）处理时间：处理时间是指正在执行相应操作的机器的系统时间。当流程序按处理时间运行时，所有基于时间的操作（如时间窗口）将使用运行相应算子的机器的系统时钟。每小时处理时间窗口将包括在系统时钟指示整小时之间到达特定操作员的所有记录。例如，如果应用程序在上午 9:15

2021-11-26 22:38:04 1423

原创 canal的搭建及使用

文章目录canal的搭建及使用1、开启mysql binlog2、上传解压配置环境变量3、修改配置文件conf/example/instance.properties4、修改配置文件conf/canal.properties5、测试6、可以利用Kafka的kafka-console-consumer或者Kafka Tools查看test这个topic的数据：canal的搭建及使用1、开启mysql binlogcp /usr/share/mysql/my-medium.cnf /etc/my.cnf

2021-11-26 21:37:07 1758

原创 kafka搭建及使用

文章目录kafka搭建及使用使用kafkasourcekafka的APIkafka整合flume（监听hadoop日志）重置kafka相关命令kafka搭建及使用1、上传压缩包到任意节点2、解压，配置环境变量所有节点都配置3、修改config/server.properties1、broker.id=0 #每一个节点broker.id 要不一样2、zookeeper.connect=master:2181,node1:2181,node2:21813、log.dirs=/usr/local

2021-11-25 23:22:57 1352 1

原创 Flink集群搭建和使用

flink -run…RPCon yarn直接提交

2021-11-25 22:56:45 1432

原创 Flink算子和入门案例（wordcount）

Flink入门案例wordcountpackage com.liu.coreimport org.apache.flink.streaming.api.scala._/** * @ Author : ld * @ Description : 实时统计word个数 * @ Date : 2021/11/23 18:57 * @ Version : 1.0 */object FlinkWordCount { def main(args: Array[String]): Unit = {

2021-11-23 22:20:18 1389

原创 kylin搭建及使用

最大限制引擎选择，建议mapreduce(虽然慢但是可以稳定运行完),spark不是很稳定，可能会报错然后都直接进行下一步，在下一步然后save然后点击后面的Actions然后点击里面的build选择时间然后点击submit提交然后到Monitor查看进度如下图一所示Progress进度开始为0再看已经运行了一部分了也可以点击最右边的（>）按钮查看进度侧边栏...

2021-11-23 13:53:02 2110

原创 Azkaban搭建及使用

Azkaban搭建使用（很简单）1、上传解压unzip azkaban-solo-server.zip#没有unzip插件的执行下面命令安装yum install unzip2、修改配置文件#修改azkaban.properties配置文件vim conf/azkaban.properties#修改时区default.timezone.id=Asia/Shanghai3、启动azkabancd /usr/local/soft/azkaban-solo-server不要进入bi

2021-11-21 05:00:00 898

原创 Spark SQL

1. 数据分析方式1) 命令式在前面的 RDD 部分, 非常明显可以感觉的到是命令式的, 主要特征是通过一个算子, 可以得到一个结果, 通过结果再进行后续计算。sc.textFile("...") .flatMap(_.split(" ")) .map((_, 1)) 26 / 110.reduceByKey(_ + _) .collect() 命令式的优点操作粒度更细，能够控制数据的每一个处理环节；操作更明确，步骤更清晰，容易维护；支持半/非结构化数据的操作。

2021-11-20 19:21:47 1910

原创大数据开发复习Spark篇

11、spark11.1、spark介绍Apache Spark是用于大规模数据处理的统一分析计算引擎Spark基于内存计算，提高了在大数据环境下数据处理的实时性，同时保证了高容错性和高可伸缩性，允许用户将Spark部署在大量硬件之上，形成集群。11.2、spark与Hadoop的区别尽管Spark相对于Hadoop而言具有较大优势，但Spark并不能完全替代Hadoop，Spark主要用于替代Hadoop中的MapReduce计算模型。存储依然可以使用HDFS，但是中间结果可以存放在内存中；

2021-11-19 07:00:00 2004

原创大数据开发复习scala篇

10、scala10.1、scala介绍 scala是运行在JVM上的多范式编程语言，同时支持面向对象和面向函数式编程。10.2、scala解释器要启动scala解释器，只需要以下几步：按住windows键 + r输入scala即可在scala命令提示窗口中执行:quit，即可退出解释器10.3、scala的基本语法10.3.1、声明变量在scala中，可以使用val或者var来定义变量，语法格式如下:val/var 变量标识:变量类型 = 初始值其中val定义的是

2021-11-18 22:20:56 878

原创向阿里云的mysql8.0写数据的时候出现Public Key Retrieval is not allowed

问题：今天在过滤出数据后调用JDBCUtil工具类去向阿里云的mysql8.0数据库写数据时出现了一直报错Public Key Retrieval is not allowed直接懵逼，之前调用自己写的工具类也没啥问题，唯独这一次出现了毛病md解决办法：在URL后面加上?allowPublicKeyRetrieval=true//加完后如下url = "jdbc:mysql://master:3306/mydb?allowPublicKeyRetrieval=true注意加的时英文？不是

2021-11-17 23:28:38 734

原创大数据开发复习第八篇（Redis篇）

文章目录Redis7.1、Redis的介绍7.2、Redis的数据类型7.2.1、String字符串7.2.2、hash列表7.2.3、list7.2.4、set集合7.3、Redis的持久化7.3.1、rdb(保存快照)7.3.2、AOF（预写日志）7.4、缓存雪崩7.4.1、我们为什么要用缓存(Redis)7.4.2、如果缓存挂了呢7.4.3、雪崩场景7.4.4、如何解决缓存雪崩7.5、缓存穿透7.5.1、什么是缓存穿透7.5.2、如何解决缓存穿透7.6、思考你的项目中Redis的使用Redis7.

2021-11-17 16:52:18 1337

原创 Spark调优总结（代码，参数，数据倾斜调优）

文章目录Spark调优代码调优参数调优参数调优模板数据倾斜调优Spark调优代码调优1.避免创建重复的RDD2.尽可能复用同一个RDD3.对多次使用的RDD进行持久化持久化策略选择：默认情况:MEMORY_ONLY（性能最高，前提内存足够，实际生产环境中也不可能把所有的内存提供给你进行持久化，数据量一大就会导致JVM的OOM（out-of-memory:内存溢出）若使用MEMORY_ONLY发生内存溢出，建议尝试MEMORY_ONLY_SER级别，降低了内存占用，比MEMORY_ONLY多

2021-11-16 22:00:53 637

lianxidata.csv

linux_unix_FineBI5_1-CN.sh

score.txt文件学生分数

hbase-1.6.0-bin.tar.gz

student.sql

score.sql文件

students.txt

DIANXIN.csv

cource.txt文件学生课程

空空如也