数据库与大数据
文章平均质量分 73
传统数据库与大数据相关案例
ShenLiang2025
『沈亮』_聚焦数据科学领域的技术研究与实践,擅长数据库开发、ETL、数据仓库、大数据、数据分析、机器学习、基础数学等方向。
展开
-
基于“Doris”的type2拉链表的Mysql实现
基于“Doris”的type2拉链表的Mysql实现原创 2023-02-03 22:20:19 · 794 阅读 · 0 评论 -
Python3.6.9 Flink 1.15.2消费Kafaka Topic
Python3.6.9 Flink 1.15.2消费Kafaka Topic原创 2023-01-07 15:50:30 · 781 阅读 · 0 评论 -
Excel制作两级分类级联的一种方法
用Excel实现二级分类筛选级联自动联动原创 2022-07-03 18:39:44 · 7495 阅读 · 0 评论 -
Doris 数据模型及自动分区使用案例
Doris 数据模型及自动分区使用案例原创 2022-05-09 13:47:07 · 2011 阅读 · 0 评论 -
ClickHouse安装配置及表引擎使用
Clickhouse集群安装及表引擎使用案例原创 2022-05-09 13:34:13 · 1671 阅读 · 0 评论 -
DataGrip 通过结果集生成insert into values语句
DataGrip 通过结果集生成insert into values语句原创 2022-04-08 18:27:47 · 4264 阅读 · 1 评论 -
Redash 9安装与配置(基于Docker方式)
Docker方式安装redash 9原创 2022-03-24 17:43:07 · 3498 阅读 · 1 评论 -
Mondrian 3.14.0 服务配置说明(限功能使用验证)
Mondrian3.14.0部署及使用原创 2022-03-09 21:34:06 · 617 阅读 · 0 评论 -
FoodMart数据仓库mysql表及数据初始化及重度汇总脚本
数据仓库FoodMart完整初始化表及数据Mysql版-数仓入门必知必会案例原创 2022-02-17 12:24:35 · 2187 阅读 · 1 评论 -
Apache Superset从入门到放弃(基于python3.6.9)
Apache Superset pip3 安装原创 2022-02-15 21:27:39 · 1708 阅读 · 0 评论 -
Lambda架构概述
大数据Lambda架构概述原创 2022-01-11 15:17:20 · 2721 阅读 · 0 评论 -
下载安装oracle旧版本oracle 12c的详细步骤
Oracle旧版本12C下载安装详解原创 2021-11-29 10:45:00 · 7122 阅读 · 1 评论 -
SQL Server 索引查找Index Seek 索引扫描 Index Scan与索引存储原理详解
SQL Server索引查找 索引扫描 B-Tree与索引存储原理索引查找的演示案例聚集索引查找索引查找(index seek)即查询条件内命中索引,直接接用主键匹配时触发聚集索引查找(Index Seek)SELECT * FROM EMPLOYEESWHERE id IN(10,100,1000,10000,100000,1000000)SELECT * FROM EMPLOYEES WHERE id = 57864SELECT * FROM EMPLOYEES WHERE id原创 2021-09-30 14:07:55 · 2090 阅读 · 0 评论 -
SQL Server 聚集索引 clustered index 非聚集索引Nonclustered Indexes键查找查找Key Lookup执行计划过程详解
SQL Server 聚集索引非聚集索引键查找过程详解索引的相关术语1 堆(Heap)是一种没有指定排序的数据结构,通俗的理解堆就像是按照顺序排放的杂物。在数据库里也即是对应没有聚集索引。2 聚集索引:一个表只有一个聚集索引且数据存放在聚集索引内。3 非聚集索:是一个B-树(B-Tree)结构,它包含了索引键和指向数据行的指针。我们可以在堆或聚集索引类型的表里创建非聚集索引。一个表的非聚集索引最多支持999个。在覆盖索引的应用场景下,可以定义非聚集索引时指定包含(include)其它字原创 2021-09-29 16:51:18 · 1131 阅读 · 0 评论 -
SQL Server 堆heap 非聚集索引 Nonclustered index 行号键查找RID loopup结合执行计划过程详解
SQL Server 堆型数据与执行计划使用案例索引的相关术语1 堆(Heap)是一种没有指定排序的数据结构,通俗的理解堆就像是按照顺序排放的杂物。在数据库里也即是对应没有聚集索引。2 聚集索引:一个表只有一个聚集索引且数据存放在聚集索引内。3 非聚集索:是一个B-树(B-Tree)结构,它包含了索引键和指向数据行的指针。我们可以在堆或聚集索引类型的表里创建非聚集索引。一个表的非聚集索引最多支持999个。在覆盖索引的应用场景下,可以定义非聚集索引时指定包含(include)其它字段。原创 2021-09-28 21:43:25 · 654 阅读 · 0 评论 -
SQL Server存储过程文本加密与解密过程详解 2019版可用
SQL Server存储过程加密与解密过程详解加密概述SQL Server的存储过程支持对其创建脚本的加密,即即便是数据库管理员也无法查看其脚本内容。本文即介绍一种方法对存储过程的加密和解密。加密实例加密存储过程创建示例加密存储过程见下(即加了WITH ENCRYPTION选项,脚本内容不可见):Create PROCEDURE usp_inlightWITH ENCRYPTIONASBEGIN print 'Can not see me! 1 ' print 'Can原创 2021-08-28 15:30:52 · 6176 阅读 · 2 评论 -
一条标准SQL语句是怎么执行之“步步惊心”过程详解与案例分析
SQL逻辑执行过程详解表与数据-- 1 创建 HR.Employees表CREATE TABLE HR.Employees( empid INT NOT NULL IDENTITY, lastname NVARCHAR(20) NOT NULL, firstname NVARCHAR(10) NOT NULL, title NVARCHAR(30) NOT NULL, titleofcour原创 2021-08-23 16:57:37 · 344 阅读 · 1 评论 -
Oracle ETL日志审计存储过程示例
Oracle ETL日志审计存储过程示例需求概述在ETL中,为了方便跟踪每个步骤的执行情况,需要建立日志审计表来跟踪以便后期的跟踪与问题问题。本文就通过一个存储过程来实现对存储过程执行异常的跟踪(审计)。代码实现-- 1 存储过程ETL_TRACE跟踪存储过程执行情况/*功能:用于记录存储过程运行的日志参数说明: ownername 存储过程的用户名 procname 存储过程名 stepname 步骤名 errcode 错误码 errtext 错误内容*/CREA.原创 2021-08-11 17:23:29 · 779 阅读 · 1 评论 -
SQL Server里那些我们应该知道的系统存储过程
SQL Server常见系统存储过程1 sp_who功能及说明: 当前数据库实例的用户、会话、进程信息。 参数主要包括用户(@loginame='xxxx')、会话状态(仅活动的即ACTIVE)、回话ID三个参数里的一个。如果不加参数则返回该数据库实例下的所有会话信息。返回参数:主要有会话ID、执行计划上下文ID、状态、登录名、主机名、阻塞进程对应的会话ID、数据库名、命令(TSQL、SQL、数据库内部命令代号)、请求ID。示例:-- 1 不传参数sp_who...原创 2021-08-03 17:51:44 · 873 阅读 · 0 评论 -
数据库工程开发秘籍之TSQL 存储过程user stored procedure的概念与案例实战
TSQL存储过程概念与案例实战存储过程存储过程由一个或多个 T-SQL 语句或对.NET公共语言运行时 (CLR) 方法的引用所构成的一组程序块。这里的T-SQL语句包括执行DDL、DML语句、应用临时表、动态SQL、定义异常处理等。但是相比于函数,它不能嵌套在查询里,但它可以调用其它的存储过程,即存储过程可以相互调用。存储过程和常见的程序语言类似,可以指定输入和输出参数。SQL Server通过缓存存储过程的执行计划进而达到节约时间、降低CPU、内存的目的。存储过程相对于在应用端实现业务逻原创 2021-07-31 11:40:48 · 505 阅读 · 0 评论 -
T-SQL里数据库工程师都不知道的秘密之SQL Server自定义函数UDF
T-SQL SQL Server UDF自定义函数概念与案例实战函数的定义这里的函数指的是用户自定义函数(UDF)全名为(user-defined function),以下简称为函数。它是数据库里的用户自定义程序,用户可以指定输入参数,制定计算逻辑,最终返回一个标量的值或者结果集。一般我们通过T-SQL或者CLR来定义函数,这里我们重点介绍的是T-SQL的方式。还有一类函数是系统内置的函数又称之为系统函数,我们直接调用即可。函数的使用场景函数可以在很多场景下使用,对一个标量和表(表变量)原创 2021-07-27 15:36:38 · 513 阅读 · 0 评论 -
还在为理解关系数据库的三范式而困惑,这篇文章用实例场景带你快速了解1NF 2NF 3NF BCNF的特点和区别
关系数据库三范式详解声明与简介为了建立冗余较小、结构合理的数据库,设计数据库时必须遵循一定的规则。在关系型数据库中这种规则就称为范式。常见的范式有1范式、2范式、3范式。1范式字段原子不可分1范式要求字段是原子的,即可不分的。So,咋理解?直接上个例子。比如学校的计算机社团招聘了,需要我们填写些基本信息,比如学号、姓名、邮箱、系名、系主任,我们记做表stu。可能是因为填写规则没说清楚的原因,有的同学把邮箱写了2个,而一般我们只需要填写一个常用邮箱即可。重点来了这里原创 2021-06-27 10:22:50 · 585 阅读 · 1 评论 -
SQL Server查询所有数据库下模式schema
SQL Server查询所有数据库下模式名需求描述找到SQL Server里所有数据库下的schema.输出格式为数据库名、模式名。思路概述#1 思路概述1) 找到显示当前数据库下schema的系统视图。这里对应的是sys.schemas。2) 找到可以查询所有数据库的系统视图,这里是sys.databases3) 给所有数据库加个序号,以方便后续遍历。4)通过WHILE循环匹配 3)里的序号。5) 拼接动态SQL生成每个数据库查询schema的SQL语句。6.原创 2021-06-22 12:34:17 · 5374 阅读 · 2 评论 -
数据库除关系运算符执行过程详解
数据库除关系运算符案例详解原创 2021-06-15 10:53:56 · 1018 阅读 · 0 评论 -
浅谈技术调研
技术调研的经验分享1 声明本文是技术调研的个人经验分享,仅作交流,不喜尽管喷。2 技术调研简介随着数据更新和硬件的迭代不断加快,技术也加快更新的步伐,特别是像大数据、人工智能(AI)、深度学习等技术分支领域的遍地开花。作为技术人员,我们面对突入其来的技术风暴该怎样抉择呢?比如大数据、Flink比较流行,Deep Learning比较火,我们该从哪里入手呢?本文将结合笔者的经验来分享研究一些新的技术。业务和场景决定...原创 2021-03-23 09:39:01 · 917 阅读 · 0 评论 -
BAT批处理脚本结合SQL应用案例
BAT脚本结合SQL应用案例本文是BAT(批处理脚本)结合SQL的应用,脚本结合了OSQL(可执行Transact-SQL语句 )、BCP(执行数据导入导出的工具)、BLAT(命令行发邮件的工具)。需求介绍通过BAT编写脚本实现源数据核对、增量数据入库、数据校验、邮件通知功能。支持按照日、周、月的方式对数据进行手动更新。关于源数据的说明: 1 当前执行的数据库环境是SQL Server2如果Day、...原创 2021-02-27 15:59:01 · 485 阅读 · 0 评论 -
SCD缓慢变化维拉链表
SCD缓慢变化维拉链表SQL实现1 缓慢变化维概述SCD英文Slow Changing Dimensions(SCD 缓慢变化维),它是数据仓库建模过程中一个非常重要的概念。众所周知数据仓库是基于历史数据的,而历史数据的变化依赖于维度的定义,缓慢变化维就是用来跟踪和表现维度表变化的一种方法。注: 1 当前代码演示环境是SQL Server,基于Merge语法,其它数据库类似。 2 SCD缓慢变换维Kettle实现常见有3中分...原创 2021-02-25 14:14:06 · 2065 阅读 · 4 评论 -
微软示例数据仓库AdventureWorksDW 与数据仓库概述
AdventureWorksDW 与数据仓库概述1 AdventureWorksDW 2019简介AdventureWorks 是SQL Server里的示例数据库。它构建在一家虚拟的大型跨国生产公司,该公司生产金属和复合材料的自行车,产品远销北美、欧洲和亚洲市场。AdventureWorksDW是其数据仓库版,本文主要演示如何还原该示例数据库。2 数据仓库示例概述2.1 结构说明1 参照里的介绍生成AdventureWorksDW2019...原创 2021-02-24 15:16:05 · 2668 阅读 · 1 评论 -
Yarn资源分配示例
Yarn资源分配示例1 简介此手册应用于yarn资源按照队列分配的情景。2 准备2.1 环境说明hadoop版本: hadoop-2.5.0-cdh5.3.33 配置3.1 配置说明1) Yarn-site.xml里配置yanr能用到的资源总数以及公平调度策略所在路径#在虚拟机关机情况下,选中后点击设置,在控制器SATA处点击右边的加号以创建虚拟硬盘。原创 2016-05-23 23:46:43 · 6783 阅读 · 0 评论 -
Sentry UDFWhiteList bug分析
Sentry UDFWhiteList bug分析1 简介此手册应用于row_number、unbase64、windowingtablefunction在开启sentry后不能执行的bug分析。2 准备2.1 环境说明Sentry版本: sentry-1.4.0-cdh5.3.3注:核对了最新版Sentry(sentry-1.5.1-cdh5.7.0)已无此问题.前同原创 2016-05-23 13:05:15 · 739 阅读 · 0 评论 -
Hive多字符列分割
Hive多字符分割列1 简介此手册应用于hive建表时指定列按照多字段分割的情景。2 准备2.1 环境说明hive版本: 1.1.0-cdh5.4.73 使用3.1 使用说明方法一)通过org.apache.hadoop.hive.contrib.serde2.RegexSerDe格式的serde。1) 建表语句#指定以^|~作为分隔符CRE原创 2016-05-23 09:33:04 · 5027 阅读 · 1 评论 -
Hortworks Hadoop 2.4.2安装、配置
Hortworks Hadoop 2.4.2安装、配置1简介此手册应用于virtualbox虚拟机硬盘紧张时添加额外硬盘时的情景。1.1 参考资料http://docs.hortonworks.com/HDPDocuments/Ambari-2.2.2.0/bk_Installing_HDP_AMB/bk_Installing_HDP_AMB-20160509.pdf原创 2016-05-23 02:17:13 · 7100 阅读 · 0 评论 -
Sqoop1使用手册
Sqoop安装、使用手册1 Sqoop简介Sqoop是一款开源的工具,主要用于在Hadoop(Hive)与传统的数据库(mysql、postgresql...)间进行数据的传递,可以将一个关系型数据库(例如: MySQL ,Oracle ,Postgres等)中的数据导进到Hadoop的HDFS中,也可以将HDFS的数据导进到关系型数据库中。2 准备2.1 环境说明1 Sqoo原创 2016-05-17 17:05:21 · 7037 阅读 · 0 评论 -
Hbase权限控制
Hbase权限配置、使用手册1 Hbase权限控制简介Hbase的权限控制是通过AccessController Coprocessor协处理器框架实现的,可实现对用户的RWXCA的权限控制。2 配置配置hbase-site.xmlCM主页→点击hbase(进入Hbase主页)→点击配置1 点击左侧的Hbase服务范围启用Hbase权限控制,设置Hbase超级用户hba原创 2016-05-15 23:36:09 · 30681 阅读 · 3 评论 -
Hbase复制(Replication )
Hbase复制使用手册1 Hbase复制简介通过hbase的replication功能实现集群间的相互复制.2 环境这里hbase版本为hbase-0.98.6-cdh5.3.33 配置各个集群里配置hbase-site.xml里的复制功能:hbase.replicationtrue完整配置文件附录: hbase.原创 2016-05-15 23:27:27 · 18136 阅读 · 1 评论 -
HAWQ手动安装
HAWQ手动安装及使用手册1 HAWQ简介HAWQ 是 Pivotal 设计的一个大规模并行 SQL 分析处理引擎,支持事务处理。HAWQ 将复杂的查询分割成简单的任何,并分发到并行处理系统中的处理单元执行。包括查询规划器、动态管道、前沿互联和查询执行优化器等等。提供最高级别的性能和可伸缩性。HAWQ 基于 Hadoop 架构是GPon HDFS。2 准备2.1 环境说明原创 2016-05-15 23:14:42 · 8392 阅读 · 1 评论 -
Impala手动安装
Impala 安装1 准备1.1 新增Impala用户并加入sudo权限chmod u+w /etc/sudoersvi /etc/sudoersimpala ALL=(ALL) NOPASSWD: NOPASSWD: ALLchmodu-w /etc/sudoers1.2准备rpm安装文件和jar包1.2.1 见附件内的Hadoop5.0.1Impala1.3原创 2016-05-15 23:09:00 · 13573 阅读 · 4 评论 -
Hadoop手动升级HA配置手册
Hadoop手动升级HA配置手册1 Hadoop组件升级本文是Apache hadoop、Hbase升级至CDH版hadoop、Hbase,同时涵盖了Hadoop HA的配置的操作手册..2 Hadoop升级2.1 Hadoop升级准备2.1.1 环境说明Hadoop原始版本、升级版本分别为:Apache Hadoop 1.2.1,hadoop2.5.0-CDH5.3.3原创 2016-01-11 23:13:55 · 2762 阅读 · 1 评论 -
Apache Sentry手动安装、使用手册
Sentry手动安装、使用手册1 Sentry简介Apache Sentry 是Cloudera公司发布的一个Hadoop开源组件,截止目前还是Apache的孵化项目,它提供了细粒度级、基于角色的授权以及多租户的管理模式。Sentry当前可以和Hive/Hcatalog、Apache Solr 和Cloudera Impala集成,未来会扩展到其他的Hadoop组件,例如HDFS和HBas原创 2016-01-05 16:19:20 · 16681 阅读 · 6 评论 -
CDH Hadoop 基于CM方式半在线安装步骤详解
CDH Hadoop安装(基于Cloudera Manager半在线方式)1 CM简介Cloudera Manager是一个端到端的管理CDH集群的工具。它通过管理CDH集群(组件安装、服务管理、参数监控、问题诊断、性能监控)各个环节从而增强集群管理的质量, 增强规范性,降低运营成本。2 准备2.1 环境说明1 该安装方式依赖如下linux组件:httpd, mysql原创 2016-01-05 10:46:21 · 14412 阅读 · 1 评论