自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

大数据技术派

代码改变世界,代码改变命运! | 微信搜索:大数据技术派

  • 博客(435)
  • 资源 (5)
  • 问答 (1)
  • 收藏
  • 关注

原创 数仓建模—宽表的设计

宽表的设计为什么要建设宽表宽表的好处和不足如何设计宽表总结宽表的设计其实宽表是数仓里面非常重要的一块,前面我们介绍过了维度表事实表,今天我们介绍一下宽表,前面我们说过了数仓是分层的,这是技......

2021-12-02 08:40:00 2640

原创 Flink计算pv和uv的通用方法

PV(访问量):即Page View, 即页面浏览量或点击量,用户每次刷新即被计算一次。UV(独立访客):即Unique Visitor,访问您网站的一台电脑客户端为一个访客。00:00-...

2021-11-01 08:30:00 5014 14

转载 数仓建模分层理论

分层建设理论 简单点儿,直接ODS+DM就可以了,将所有数据同步过来,然后直接开发些应用层的报表,这是最简单的了;当DM层的内容多了以后,想要重用,就会再拆分一个公共层出来,变成3层架构...

2020-12-12 10:58:40 1718

原创 hadoop 数据迁移

数据迁移使用场景冷热集群数据分类存储,详见上述描述.集群数据整体搬迁.当公司的业务迅速的发展,导致当前的服务器数量资源出现临时紧张的时候,为了更高效的利用资源,会将原A机房数据整体迁移到B机房的,原因可能是B机房机器多,而且B机房本身开销较A机房成本低些等.数据的准实时同步.数据的准实时同步与上一点的不同在于第二点可以一次性操作解决,而准实时同步需要定期同步,而且要做到周期内数据基本完全一......

2018-11-18 13:19:36 5048

转载 ClickHouse主键索引最佳实践

在本文中,我们将深入研究ClickHouse索引。我们将对此进行详细说明和讨论:ClickHouse的索引与传统的关系数据库有何不同ClickHouse是怎样构建和使用主键稀疏索引的ClickHouse索引的最佳实践这篇文章主要关注稀疏索引,clickhouse主键使用的就是稀疏索引。数据集在本文中,我们将使用一个匿名的web流量数据集。我们将使用样本数据集中的887万行(事件)的子集。未压缩的数...

2023-04-28 08:40:42 96 1

原创 ClickHouse MergeTree引擎

Clickhouse 中最强大的表引擎当属 MergeTree (合并树)引擎及该系列(*MergeTree)中的其他引擎。MergeTree 系列的引擎被设计用于插入极大量的数据到一张表当中。数据可以以数据片段的形式一个接着一个的快速写入,数据片段在后台按照一定的规则进行合并。相比在插入时不断修改(重写)已存储的数据,这种策略会高效很多。这使得您能够创建一个小型的稀疏索引来加快数据检索。在相同数据集和相同结果集的情况下 ClickHouse 中某些带分区的操作会比普通操作更快。

2022-12-22 10:47:56 510

原创 Flink SQL管理平台flink-streaming-platform-web安装搭建

文章都在个人博客网站:https://www.ikeguang.com/ 同步,欢迎访问。最近看到有人在用flink sql的页面管理平台,大致看了下,尝试安装使用,比原生的flink sql界面确实好用多了,我们看下原生的,通过bin/sql-client.sh命令进入那个黑框,一只松鼠,对,就是那个界面。。。。这个工具不是Flink官方出的,是一个国内的小伙伴写的,Github地址:是不是觉得很强大,很多同学已经摩拳擦掌想试试了。

2022-12-02 09:51:18 487

原创 Flink同步Kafka数据到ClickHouse分布式表

ClickHouse是一个用于联机分析(OLAP)的列式数据库管理系统(DBMS)。列式数据库更适合于OLAP场景(对于大多数查询而言,处理速度至少提高了100倍),下面详细解释了原因(通过图片更有利于直观理解),图片来源于ClickHouse中文官方文档。行式列式我们使用Flink编写程序,消费kafka里面的主题数据,清洗、归一,写入到clickhouse里面去。

2022-12-01 09:42:23 261 1

转载 看完这篇, FlinkSQL 统统能整明白了

马云曾在一次演讲中说道:“未来的时代,将不再是 IT 时代,而是 DT 时代。”的确,这些年,越来越多开发,转行做大数据,又或通过大数据打造自己的竞争力(比如很多 Java 开发都会学学大数据),核心原因有三点:云计算技术的发展会降低功能开发的难度,很多开发会向低代码方向发展。大数据的价值空间正在逐渐形成,而围绕大数据进行价值化操作将是一个新的发展趋势,人才需求会更集中。大数据是人工智能的基础,但...

2022-10-24 08:47:06 322

原创 flink-cdc同步mysql数据到hive

本文首发于我的个人博客网站: ikeguang.com什么是CDC?CDC是(Change Data Capture 变更数据获取)的简称。核心思想是,监测并捕获数据库的变动(包括数据 或 数据表的插入INSERT、更新UPDATE、删除DELETE等),将这些变更按发生的顺序完整记录下来,写入到消息中间件中以供其他服务进行订阅及消费。Flink_CDC1. 环境准备mysqlHiveflink ...

2022-09-30 10:35:07 529

原创 flink-cdc同步mysql数据到hbase

本文首发于我的个人博客网站:https://www.ikeguang.com什么是CDC?CDC是(Change Data Capture 变更数据获取)的简称。核心思想是,监测并捕获数据库的变动(包括数据 或 数据表的插入INSERT、更新UPDATE、删除DELETE等),将这些变更按发生的顺序完整记录下来,写入到消息中间件中以供其他服务进行订阅及消费。Flink_CDC1. 环境准备mysq...

2022-09-29 08:30:11 754

原创 paddleocr安装与图片识别快速开始

很不幸,这个命令失败了,pip命令找不到这个版本,那么需要自己手动下载whl文件,安装了。点击旧版本安装,到这个页面,因为我们的cuda是10.0版本的,我们浏览器全局搜索,这里使用gpu版本,需要安装cuda,先查看cuda版本。下载后,解压,编译,安装,即可。到这里为止,已经成了90%。

2022-09-20 14:49:35 801

原创 flink-cdc实时增量同步mysql数据到hbase

CDC是(Change Data Capture 变更数据获取)的简称。核心思想是,监测并捕获数据库的变动(包括数据 或 数据表的插入INSERT、更新UPDATE、删除DELETE等),将这些变更按发生的顺序完整记录下来,写入到消息中间件中以供其他服务进行订阅及消费。

2022-09-16 15:39:49 1399

原创 flink-cdc实时增量同步mysql数据到hive

CDC是(Change Data Capture 变更数据获取)的简称。核心思想是,监测并捕获数据库的变动(包括数据 或 数据表的插入INSERT、更新UPDATE、删除DELETE等),将这些变更按发生的顺序完整记录下来,写入到消息中间件中以供其他服务进行订阅及消费。

2022-09-16 14:23:03 1961 1

原创 flink-cdc实时增量同步mysql数据到kafka

CDC是(Change Data Capture 变更数据获取)的简称。核心思想是,监测并捕获数据库的变动(包括数据 或 数据表的插入INSERT、更新UPDATE、删除DELETE等),将这些变更按发生的顺序完整记录下来,写入到消息中间件中以供其他服务进行订阅及消费。

2022-09-14 18:34:56 1496

原创 flink-cdc实时增量同步mysql数据到elasticsearch

CDC是(Change Data Capture 变更数据获取)的简称。核心思想是,监测并捕获数据库的变动(包括数据 或 数据表的插入INSERT、更新UPDATE、删除DELETE等),将这些变更按发生的顺序完整记录下来,写入到消息中间件中以供其他服务进行订阅及消费。

2022-09-13 17:45:45 1215 1

原创 mysql索引不生效

并不是索引越多越好,索引是一种以空间换取时间的方式,所以建立索引是要消耗一定的空间,况且在索引的维护上也会消耗资源。本文首发我的个人博客可以看出目前这张表是有3个索引的:我往这张表里面导入了10万多条记录。

2022-09-08 09:57:50 731

原创 logstash同步mysql数据到elasticsearch

更多知识,可以前往我的个人博客网站: 等待下一个秋-Python3. 新建索引4. 编辑配置文件,重要配置参数说明:参考资料

2022-08-03 14:06:50 351

原创 Python常用基础语法知识点大全

面向对象每一个变量都是一个类,有其自己的属性(attribute)与方法(method)。语法块用缩进(四个空格)而不是分号、花括号等符号来标记。因此,行首的空格不能随意书写。注释行内用“#”号,行间注释写在两组连续三单引号之间’’’续行行尾输入一个反斜杠加一个空格(’\‘),再换行。如果行尾语法明显未完成(比如以逗号结尾),可以直接续行。打印与输入函数print()与input(),注意print()的sep与end参数。变量变量复制的一个例子。使用。...

2022-07-21 13:50:02 334

原创 elasticsearch修改字段类型

1、原索引2、创建新索引3、同步数据4、删除原索引5、设置别名欢迎访问我的个人博客,听听我的故事。

2022-07-14 10:57:23 1350

原创 Python3 Linux 安装教程

去Python官网下载windows安装包,按照安装向导一直点击下一步即可,安装向导最好勾选,这样就不用手动添加环境变量了。安装比较复杂,需要安装一些系统依赖,再编译安装。1).下载源码tar包注:国内华为镜像下载会稳定快些,https://mirrors.huaweicloud.com/python/ , Python官方所有版本列表:https://www.python.org/downloads/ 。2). 解压解压完成后cd进入解压的目录。3). 编译、安装准备编译环境完成后,依次执行以

2022-07-13 10:11:08 275

原创 Python进程管理神器——Supervisor

Supervisor 是一款 Python 开发的进程管理系统,允许用户监视和控制 Linux 上的进程,能将一个普通命令行进程变为后台守护进程,异常退出时能自动重启详细介绍查阅:Supervisor IntroductionSupervisor 支持 Linux 和 Mac,不支持 Windows本文系统为: 安装完成后,在Python 下面会有这样几个文件。注:由于python bin目录是加入了环境变量,所以可以直接执行这几个文件。若报错 -bash: /etc/supervisord.co

2022-07-12 16:39:31 393

转载 我是Flink,现在"背"感压力,通俗易懂的讲解Flink背压机制

为什么你的Flink运行开始减慢了?为什么你试遍Flink参数还是无法解决?Flink背压常常发生在生产事故中,切记不要掉以轻心。不知为何,最近的我开始走下坡路了。。。1 故事的开始 此刻,我抬头看了一眼坐在对面的这个家伙: 格子衫、中等身材,略高的鼻梁下顶着一副黑框眼镜,微眯的目光透出丝丝倦意,正一眨不眨地盯着我看。我心里直犯嘀咕: 我又有什么好看的呢?不过是A君你用来...

2022-05-13 12:08:14 425 3

原创 数据仓库—开发规范

数据仓库系列文章(持续更新)数仓架构发展史数仓建模方法论数仓建模分层理论数仓建模—宽表的设计数仓建模—指标体系数据仓库之拉链表数仓—数据集成数仓—数据集市数仓—商业智能系统数仓—埋点设计与管理数仓—ID Mapping数仓—OneID数仓—AARRR海盗模型数仓—总线矩阵数仓—数据安全数仓—数据质量数仓—数仓建模和业务建模关注公众号:大数据技术派,回复: 资料,领取1024G资料。凡事无规矩不立,所以你会经常看到各种各样的规范,面对规范需要遵守,但是不能盲目,例

2022-05-13 09:12:26 207

转载 数据仓库—开发规范

数据仓库系列文章(持续更新)数仓架构发展史数仓建模方法论数仓建模分层理论数仓建模—宽表的设计数仓建模—指标体系数据仓库之拉链表数仓—数据集成数仓—数据集市数仓—商业智能系统数仓—埋点设计与管理数仓—ID Mapping数仓—OneID数仓—AARRR海盗模型数仓—总线矩阵数仓—数据安全数仓—数据质量数仓—数仓建模和业务建模凡事无规矩不立,所以你会经常看到各种各样的规范,面...

2022-05-05 08:40:00 777

转载 数仓建模—建模工具PdMan

数据仓库系列文章(持续更新)数仓架构发展史数仓建模方法论数仓建模分层理论数仓建模—宽表的设计数仓建模—指标体系数据仓库之拉链表数仓—数据集成数仓—数据集市数仓—商业智能系统数仓—埋点设计与管理数仓—ID Mapping数仓—OneID数仓—AARRR海盗模型数仓—总线矩阵数仓—数据安全数仓—数据质量数仓—数仓建模和业务建模工欲善其事,必先利其器,所以开始数仓建模之前我们还...

2022-04-15 17:59:00 7751 3

转载 爆肝 3 月,3w 字、15 章节详解 Flink 状态管理!(建议收藏)

1.前言大家好,我是老羊。该文耗时将近 3 个月总结。集博主心得理解之大成。不多说了,本文从盘古开天辟地(状态是啥?)开始说 Flink State。如下为本文目录,诚意满满。⭐ 状态是什么东西?有了状态能做什么?⭐ 为什么离线计算中不提状态,实时计算老是提到状态这个概念?状态到底在实时计算中解决了什么问题?⭐ 有了状态、为什么又出现了状态管理的概念?⭐ 怎么学习 Fli...

2022-04-03 12:12:18 239

转载 数仓建模—OneID

今天是我在上海租房的小区被封的第三天,由于我的大意,没有屯吃的,外卖今天完全点不到了,中午的时候我找到了一包快过期的肉松饼,才补充了1000焦耳的能量。但是中午去做核酸的时候,我感觉走路有点不稳,我看到大白的棉签深入我的嘴里,我竟然以为是吃的,差点咬住了,还好我有仅存的一点意识。下午我收到女朋友给我点的外卖——面包(我不知道她是怎么点到的外卖,我很感动),很精致的面包,搁平时我基本不喜欢吃面包,但是已经到了这个份上,我大口吃起来,竟然觉得这是世界上最好吃的食物了。明天早晨5:50的闹钟,去叮咚和美团买菜,看

2022-03-31 10:56:36 557

转载 数据仓库—数据集成

这几天上海疫情严重了,居家办公了几天,后面如果去公司上班需要核酸证明,今天去做了个核酸,竟然是桶鼻子,卧槽。不过说实话,捅鼻子也没啥,这酸爽犹如灵魂出窍,全身通透,让人飘飘然而不知所措。做一次管3天,后面可能还要去做,其实我在想传说中的肛拭子是啥样,我倒真希望体验一下。。。数据仓库系列文章(持续更新)数仓架构发展史数仓建模方法论数仓建模分层理论数仓建模—宽表的设计数仓建模—指标体系数据仓库之拉链表数仓—数据集成数仓—数据集市数仓—商业智能系统数仓—埋点设计与管理数仓—ID Mapp

2022-03-26 16:03:50 291

原创 Spark—GraphX编程指南

Spark系列面试题Spark面试题(一)Spark面试题(二)Spark面试题(三)Spark面试题(四)Spark面试题(五)——数据倾斜调优Spark面试题(六)——Spark资源调优Spark面试题(七)——Spark程序开发调优Spark面试题(八)——Spark的Shuffle配置调优GraphX 是新的图形和图像并行计算的Spark API。从整理上看,GraphX 通过引入 弹性分布式属性图(Resilient Distributed Property Graph)继承

2022-03-26 15:56:40 207

转载 一站式元数据治理平台——Datahub入门宝典

数据仓库系列文章(持续更新)数仓架构发展史数仓建模方法论数仓建模分层理论数仓建模—宽表的设计数仓建模—指标体系数据仓库之拉链表数仓—数据集成数仓—数据集市数仓—商业智能系统数仓—埋点设计与.........

2022-03-11 10:22:43 11007 8

转载 Flink 对线面试官(二):6k 字,8 个面试高频实战问题(没有实战过答不上来)...

1.前言本文主要是整理博主收集的 Flink 高频面试题。之后每周都会有一篇。这一期的主题是 实战经验,这一期讲的内容其实是面试官非常看重的,为什么这么说呢?因为这一期涉及到的几个问题,基...

2022-03-08 08:40:00 362

转载 腾讯数据湖的元数据治理实践

关注下面公众号,回复:数据湖关键字即可获取 PPTEND数据仓库系列文章(持续更新)数仓架构发展史数仓建模方法论数仓建模分层理论数仓建模—宽表的设计数仓建模—指标体系数据仓库之拉链表数仓...

2022-03-05 09:57:10 269

转载 最近认识的新朋友

今天给大家推荐 7 个我的好朋友,都是来自各领域的大佬,有做离线数仓、实时数仓、数据工具链开发、数据治理、到数据分析的。跟着几位大佬学习业务数据化、数据资产化、资产服务化、服务业务化。听一...

2022-03-04 08:40:00 197

转载 70图,2万字,讲透HBase知识点,文末送书(全网最全干货)

点击上方卡片进入教你学懂大数据主页然后点击右上角 “设为星标”比别人更快接收好文章文档大纲:前言各位小伙伴大家好,最近因为公司电脑固态硬盘坏掉和大院拆迁被迫搬家的事情,心情一直比较苦闷;在...

2022-03-03 08:40:00 240

转载 数仓建模—ID Mapping

早晨起床的时候,发现自己尿分叉,我没有多想,简单洗洗就匆忙出门。路过早餐店,我看到师傅熟练的拉扯一小块面团,拉至细长条,然后放入油锅中,不一会功夫,一根屎黄色的油条便出锅了,卖相不错。我在...

2022-03-01 08:40:00 1973

转载 数仓建模—埋点设计与管理

数据仓库系列文章(持续更新)数仓架构发展史数仓建模方法论数仓建模分层理论数仓建模—宽表的设计数仓建模—指标体系数据仓库之拉链表数仓—数据集成数仓—数据集市数仓—商业智能系统数仓—埋点设计与...

2022-02-25 08:40:00 562

原创 数仓建模—数据集成

数据仓库系列文章(持续更新)数仓架构发展史数仓建模方法论数仓建模分层理论数仓建模—宽表的设计数仓建模—指标体系数据仓库之拉链表数仓—数据集成数仓—数据集市数仓—商业智能系统数仓—埋点设计与...

2022-02-23 08:40:00 1119

转载 爆肝 1 年,18w 字 Flink SQL 手册,横空出世 !!! (建议收藏)

记得点击"大数据羊说",设为星标⭐后台回复【加群】,申请加入优质大数据学习社群重头戏这一年来,写过几篇万字文,也有一些文章可能不是很符合粉丝们的口味。不过没关系,这都在小编的计划中。截...

2022-02-21 08:40:00 251

转载 数据仓库—数仓治理

本文目录数据治理统一流程参考模型为什么要治理DMBOK的数据治理框架数仓治理治理的分类数据源治理数仓模型治理数据服务治理上下游约定数仓评价(如何评价一个数据仓库的好坏)数据准确性时效性覆盖...

2022-02-18 08:40:00 620

2022年Python爬虫最全资料【6年爬虫经验精华总结】

【主要内容】 1. Python爬虫简介与环境安装 - Pythonn环境 - Selenium安装 - Python相关包 2. 基本库的使用 - 爬虫基本原理; - urlib库使用; - requests库使用; - bs4使用; - xpath和lxml使用; - selenium使用; - PyQuery使用; 3. scrapy基本使用 4. Scrapy redis实现分布式爬虫 5. 反爬措施 6. 手机APP爬虫 - 模拟器安装、fiddler、appium、mitmproxy安装; - 抓包工具的使用; - 移动端自动化控制; - 利用mitmproxy抓取存储数据; - apk脱壳反编译; references,学习资料分享 价格可谈,联系我:ddxygq。

2022-07-07

阿里巴巴java开发手册中文版

阿里巴巴java开发手册,高清原版,规范你的java开发习惯,让你的开发习惯与顶级互联网公对齐!

2018-09-02

hive-hbase-handler-1.2.1.jar

hive-hbase-handler-1.2.1.jar解决hive1.2.1,hbase不兼容情况!

2018-08-15

hadoop-2.7.2 windows7环境编译文件(winutils.exe、hadoop.dll)

windows环境下开发hadoop与本地运行,会报错,需要编译win环境hadoop工具 否则,可能会有两种错误: 1、Did not find winutils.exe: java.io.FileNotFoundException; 2、java.lang.UnsatisfiedLinkError: org.apache.hadoop.io.nativeio.NativeIO$Windows 将里面的bin目录覆盖到hadoop对应bin目录即可

2018-03-07

用matlab编写猜字小游戏

用matlab编写猜字小游戏

2016-10-24

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除