自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(94)
  • 收藏
  • 关注

原创 正则表达式元字符-详细说明

95|98|NT|2000)' 匹配"Windows 3.1"中的 "Windows",但不匹配"Windows 2000"中的"Windows"。序列"\\\\"匹配"\\","\\("匹配"("。例如,"o{2,}"不匹配"Bob"中的"o",而匹配"foooood"中的所有 o。例如,"zo+"与"zo"和"zoo"匹配,但与"z"不匹配。例如,"er\b"匹配"never"中的"er",但不匹配"verb"中的"er"。例如,"[^abc]"匹配"plain"中"p","l","i","n"。

2024-01-24 22:35:52 1110

原创 subline 快捷键大全

举个栗子:1、输入当前项目中的文件名,快速搜索文件,2、输入@和关键字,查找文件中函数名,3、输入:和数字,跳转到文件中该行代码,4、输入#和关键字,查找变量名。Ctrl+shift+F 在文件夹内查找,与普通编辑器不同的地方是sublime允许添加多个文件夹进行查找,略高端,未研究。Ctrl+Shift+Enter 在上一行插入新行。Ctrl+Shift+L 先选中多行,再按下快捷键,会在每行行尾插入光标,即可同时编辑这些行。Ctrl+: 打开搜索框,自动带#,输入关键字,查找文件中的变量名、属性名等。

2024-01-24 22:32:04 1036

原创 flume

第 1 章 Flume 概述 1.1 Flume 定义 Flume 是 Cloudera 提供的一个高可用的,高可靠的,分布式的海量日志采集、聚合和传 输的系统。Flume 基于流式架构,灵活简单。 为什么选用Flume Python爬虫数据 Java后台日志数据 服务器本地磁盘 文件夹 HDFS Flume Flume最主要的作用就是,实时读取服务器本地磁盘的数据,将数据写入到HDFS。 Kafka 网络端口数据 1.2 Flume 基础架构

2024-01-13 17:55:56 692

原创 银行十大主题域

它可以记录的范围非常广泛,可以记录各种与银行相关的活动的详细情况,包括交易数据,比如存款、提款、付款、收取信用卡年费、计算利息和费用、投诉、查询产品、查询地址、查询余额、网上交易等。银行是一个企业,同时也是一个机构,涉及企业机构就会有资产,财务的存在,银行有自己的产品(信用卡,黄金,期货等)有产品就需要有人进行买卖,买卖的人这就是当事人,进行的买卖就是销售,有销售就得有渠道(不管是线上还是线下),在进行买卖,存贷款的时候需要签合同,这就是协议,整体这个交易就是事件,从而对银行的财务,资产产生影响。

2024-01-07 13:34:34 2765

原创 银行数仓建模方法论

在设计数据模型时,需要综合考虑业务需求、数据结构、数据流程和数据质量等因素,并遵循规范化、抽象层次和可扩展性等原则。在数据建模流程方面,需要经过需求分析、概念建模、逻辑建模、物理建模、模型实现和模型优化等阶段。通过科学合理的数据模型设计和建模流程,可以帮助银行更好地管理和利用其海量数据,提高其业务水平和竞争力。在前面的文章中,我们介绍了银行数据仓库体系的基础知识,本篇文章将重点介绍银行数据仓库体系实践(7)—数据模型设计及流程。数据模型设计是银行数据仓库体系的核心,它是对银行业务进行抽象和概括的过程。

2023-12-23 21:51:42 613

原创 数仓null注意事项

2023-12-02 21:27:11 98

原创 MySQL jdbc,事务,连接池

JDBC(Java DataBase Connectivity,java数据库连接技术)是一种用于执行SQL语句的Java API。JDBC是Java访问数据库的标准规范,可以为不同的关系型数据库提供统一访问,它由一组用Java语言编写的接口和类组成。JDBC需要连接驱动,驱动是两个设备要进行通信,满足一定通信数据格式,数据格式由设备提供商规定,设备提供商为设备提供驱动软件,通过软件可以与该设备进行通信。JDBC与数据库驱动的关系:接口与实现的关系。

2023-10-15 17:01:33 652 2

原创 MySQL 约束,视图,索引及常见函数

为什么要学索引​ 如果新华字典没有汉语拼音、偏旁部首目录,你如何查找某个汉字?​ 一页一页翻找,效率低​ 如果带着汉语拼音、偏旁部首目录,你如何查找?​ 先看汉语拼音目录,找到汉字对应的页数,直接找对应页码即可。利用索引检索,效率高索引是什么​ Mysql官方对索引的定义是:索引(Index)是帮助Mysql高效获取数据的数据结构。​ 提取句子主干就是:索引是数据结构。索引的目的​ 索引的目的在于提高查询或检索效率。(拿空间换时间)索引的优势​ 提高数据检索效率,降低数据库IO成本。

2023-10-15 16:56:24 363

原创 hive 知识总结

1 hive介绍与原理分析Hive是一个基于Hadoop的开源数据仓库工具,用于存储和处理海量结构化数据。它是Facebook 2008年8月开源的一个数据仓库框架,提供了类似于SQL语法的HQL(hiveSQL)语句作为数据访问接口。1.1 hive的优缺点1)Hive 使用类SQL 查询语法, 最大限度的实现了和SQL标准的兼容,大大降低了传统数据分析人员处理大数据的难度2)使用JDBC 接口,开发人员更易开发应用;

2023-10-10 19:16:52 630

原创 spark 算子考点

2023-09-23 12:45:52 119

原创 spark 精华总结

在 Spark 的基础上,Spark 还提供了包括Spark SQL、Spark Streaming、MLib 及GraphX在内的多个工具库,我们可以在一个应用中无缝。Hadoop中的MR中每个map/reduce task都是一个java进程方式运行,好处在于进程之间是互相独立的,每个task独享进程资源,没。有互相干扰,监控方便,但是问题在于task之间不方便共享数据,执行效率比较低。而基于线程的方式计算是为了数据共享和提高执行效率,Spark采用了线程的最小的执行。为基础,提供数据的流式计算功能。

2023-09-16 20:45:32 431

原创 linux命令总结

2023-09-10 20:10:11 69

原创 linux 文本编辑命令总结

2023-08-25 22:05:57 288

原创 数仓建模理论

2023-07-30 13:12:02 232

原创 svn 详解

2023-07-30 13:11:01 73

原创 linux 精华总结

2023-07-29 15:51:57 415

原创 kafka 总结宝典

2023-07-23 21:43:44 760

原创 control-m调度

2023-07-18 23:05:50 1138 2

原创 一张图搞定大数据面试

2023-07-16 22:44:18 109

原创 书写高质量sql的方法

2023-07-09 18:30:02 158

原创 21个写sql 的好习惯

2023-07-09 18:03:41 122

原创 hadoop 自己的部署

hadoop关闭:只需要在主节点master关闭!hadoop启动:只需要在主节点master启动!【hive】只需要在主节点mastetr任意路径执行。【mysql】只需要在主节点master启动!hadoop pi 计算示例。启动 hiveserver2。所有基础都在启动hadoop以后。密码:123@Hhhh。启动metastore。进入hive命令窗口。

2023-07-09 15:44:52 669

原创 sqoop 详解

Sqoop是Apache旗下的一款“hadoop和关系型数据库服务器之间传送数据”的工具。导入数据:MySQL、Oracle导入数据到hadoop的hdfs、hive、hbase等数据存储系统。导出数据:从hadoop的文件系统中导出数据到关系型数据库中。

2023-07-08 17:07:20 3106

原创 hadoop集群报错问题

2023-07-07 19:42:51 113

原创 impala

2023-07-06 23:07:39 139

原创 正则表达式

2023-07-06 20:25:15 59

原创 配置linux固定ip

2023-07-04 15:43:07 140

原创 CDP 业务场景及系统使用梳理

在数据爆发式增长的现代社会,数据的量级越来越大且分散在各处,形成了一个个数据孤岛,一家企业的不同部门可能都有不同的数据分析需求,那么可能就存在很多烟囱式的开发与存储,在企业数据应用的层面上来讲其实是定义模糊且耗费成本的。那么 One Data & One Service 的数据整合就显得非常有必要,能够打破数据壁垒(比如统一各个订单系统的订单系统),统一分析口径和维度(比如统一不同部门之间的商品编码格式),减少数据分析成本,为企业级的数据分析赋能,以便于让数据真正的变成资产。

2023-07-01 21:16:14 352

原创 hive 知识点总结

hive shell 命令。

2023-06-26 21:03:05 418

原创 拉链表详解

4用初始化拉链表去left join 第二天新增和变化的数据 只要能join的上那就去修改初始化拉链表的结束时间。3创建一张临时表,在临时表里面对新增的数据和变化的数据加上对应的开始生效时间和开始失效时间。1先初始化一张拉链表 在末尾增加2个字段 生效开始时间,生效结束时间。2第二天会产生新增的数据和变化的数据把他获取到。变成当前数据减1覆盖生效结束时间。

2023-06-24 19:41:13 82

原创 spark 算子总结

2023-06-20 23:16:01 70

原创 java 经典面试题

1、JDK、JRE、JVM 分别是什么关系?JDK 即为 Java 开发工具包,包含编写 Java 程序所必须的编译、运行等开发工具以及 JRE。开发工具如:用于编译 Java 程序的 javac 命令。用于启动 JVM 运行 Java 程序的 Java 命令。用于生成文档的 Javadoc 命令。用于打包的 jar 命令等等。2、为什么 Java 被称作是“平台无关的编程语言”?Java 虚拟机是一个可以执行 Java 字节码的虚拟机进程。

2023-06-20 22:34:31 861

原创 启动停止脚本

2023-06-20 22:27:07 64

原创 spark 数据倾斜处理

六大代码优化:避免创建重复的RDD尽可能复用同一个RDD对多次使用的RDD进行持久化尽量避免使用shuffle类算子使用map-side预聚合的shuffle操作使用高性能的算子广播大变量使用Kryo优化序列化性能优化数据结构使用高性能的库fastutil如何选择一种最合适的持久化策略 1默认情况下,性能最高的当然是MEMORY_ONLY,但前提是你的内存必须足够足够大, 可以绰绰有余地存放下整个RDD的所有数据。因为不进行序列化与反序列化操作,就避 免了这部分的性能开销;

2023-06-20 22:21:50 1453

原创 大数据大招3

2023-06-20 13:12:51 82

原创 大数据大招2

2023-06-20 08:58:10 68

原创 大数据面试大招

2023-06-18 23:24:16 91

原创 项目怎么写

2023-06-14 23:30:41 114

原创 银行架构总结

2023-06-12 19:16:52 78 1

原创 大数据学习必备能力

2023-06-12 11:54:39 393

Oracle学习资源与使用

Oracle学习资源与使用

2023-04-25

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除