大数据
文章平均质量分 70
按时发大水范德萨范德萨
一流觞
这个作者很懒,什么都没留下…
展开
-
数据倾斜、数据漂移及hiveSQL优化
假如要从一张stg层表中将json字符串解析成对相应的字符串,假设有10个字段,那么get_json_object()方法相当于一条记录使用 10 次函数,而 json_tuple()方法只是使用了一次,进行了批量解析,这种方式明显更高(脑补下 JVM 的知识点)。针对以上方案,如果既需要满足本需求,又有利于数仓建设的话,推荐方案一,如果是敏捷开发,满足此需求的话推荐方案三,对于数据集市建设,如果没必要细致到用户到城市维度的话,建议方案二,三种方案各有利弊,具体选择需要根据实际情况定夺。原创 2023-02-23 20:33:10 · 1268 阅读 · 2 评论 -
数据仓库建模设计
ODS层的设计要点如下:(1)ODS层的表结构设计依托于从业务系统同步过来的数据结构。(2)ODS层要保存全部历史数据,故其压缩格式应选择压缩比较高的,此处选择gzip。(3)ODS层表名的命名规范为:ods_表名_单分区增量全量标识(inc/full)。DIM层设计要点:(1)DIM层的设计依据是维度建模理论,该层存储维度模型的维度表。(2)DIM层的数据存储格式为orc列式存储+snappy压缩。(3)DIM层表名的命名规范为dim_表名_全量表或者拉链表标识(full/zip)DWD层原创 2022-12-04 17:26:20 · 682 阅读 · 0 评论 -
kafka快速入门
查看主题命令参数2)查看当前服务器中的所有topic3)创建first topic选项说明:–topic 定义topic名–replication-factor 定义副本数–partitions 定义分区数4)查看主题的详情5)修改分区数(注意:分区数只能增加,不能减少)6)再次查看first主题的详情7)删除topic。原创 2022-11-13 12:19:37 · 249 阅读 · 0 评论 -
flume入门到到放弃
flume是一个分布式的数据采集器,Flume最主要的作用就是,实时读取服务器本地磁盘的数据,将数据写入到HDFS。原创 2022-10-25 23:35:33 · 441 阅读 · 0 评论 -
数据仓库简介
数据仓库不是数据最终目的地,而是为数据最终目输出做好准备,包括对数据操作备份,清洗,聚合,统计等数仓的分层ods:备份dwd:清洗dws:预聚合ads:统计用户画像:给用户打标签。原创 2022-10-23 19:16:13 · 464 阅读 · 0 评论 -
kafka的零拷贝
传统的数据文件拷贝过程如下图所示,大概可以分成四个过程:磁盘----》read buffer-----》application buffer-------》socket buffer---------》网卡-------》发送给消费者。原创 2022-09-08 15:38:26 · 4977 阅读 · 0 评论 -
elasticsearch的基本操作
price_group”:{ # 名称,随便起的。“type”:“keyword”, #全量匹配。“match_phrase”:{ #完全匹配。“field”:“price” # 分组字段。“category”:“小米手机”,“type”:“text”,#单匹配。“filter”:{ # 条件查询。“category”:“小米”,“category”: “小米”“title”:“小米手机”,“title”:“小米手机”,“category”:“小米”“category”:“小米”原创 2022-08-24 09:11:25 · 218 阅读 · 0 评论 -
Flink部署
Flink 中的几个关键组件:客户端(Client)、作业管理器(JobManager)和任 务 管 理 器 ( TaskManager)。我 们 的 代 码 , 实 际 上 是 由 客 户 端 获 取 并 做 转 换 , 之 后 提 交 给JobManger 的。所以 JobManager 就是 Flink 集群里的“管事人”,对作业进行中央调度管理;而它获取到要执行的作业后,会进一步处理转换,然后分发任务给众多的 TaskManager。原创 2022-08-20 21:47:32 · 701 阅读 · 0 评论 -
Flink 入门
flink是一个分布式处理引擎,可以在无边界和有边界数据流上进行有状态的计算。Flink 能在所有常见集群环境中运行,并能以内存速度和任意规模进行计算。原创 2022-08-19 16:12:03 · 459 阅读 · 0 评论 -
数仓建模理论之实体和维度建模
1、ER实体关系模型ER实体关系模型:是当前几乎所有的 OLTP 系统设数据库设计理论基础,当在信息系统中将事物抽象为“实体”,”属性“,”关系“来表示数据关联和事物描述。实体:实体是一个数据对象,指应用中可以区别的客观存在的事物。例如:商品、用户、学生、课程等属性:实体的某一特性称为属性。例如:商品的重量、颜色、尺寸。用户的性别、身高、爱好等。关系:表示一个或多个实体之间的关联关系。实体不是孤立的,实体之间是有联系的,这就是关系。例如:用户是实体,商品是实体,用户选购商品这个过程就会产生“选购商品原创 2022-03-13 11:01:32 · 4720 阅读 · 0 评论 -
Spark基础
1、什么是Sparkspark是专门为大数据处理而设计的计算引擎。2、Spark和MR的区别都是分布式计算框架,Spark是基于内存,MR基于HDFS。Spark处理数据的速度是MR的十倍以上,Spark处理基于内初计算外,还有DAC有向无环图来切分任务的执行先后顺序。3、Spark的运行模式Local:多用于本地测试Standalone:自带的资源调度框架。yarn:Mesos注意:要用yarn来进行资源调度器,要实现AppalicationMaster 接口,Spark 实现 了这个接原创 2022-02-13 16:36:25 · 823 阅读 · 0 评论 -
DDL操作表
前提先使用某个数据库DDL:数据定义语言用来定义数据库对象:数据库,表,列等,关键字create,drop,alter等1、创建数据库直接创建create database 数据库名;判断是否存在并创建数据库create database if not exist 数据库名创建数据库并指定字符集create database 数据库名 character set 字符集2、 创建表语法:CREATE TABLE 表名 (字段名1 字段类型1, 字段名2 字段类型2…);关键字说明:原创 2021-09-22 10:21:01 · 348 阅读 · 0 评论 -
分布式集群
1、准备四台虚拟机用户名分别为node1,node2,node3,node4输入命令cd /etc/sysconfig/network-scripts/修改vim vim ifcfg-eth0,为了让IP不同设置为静态如下图:2、实现四台虚拟机免密登录(1)首先在四台服务器上都要执行:ssh-keygen -t dsa -P ‘’ -f ~/.ssh/id_dsa(2)在 node1 上将 node1 的公钥拷贝到 authorized_keys 中:id_dsa.pub :公钥kno原创 2021-08-30 09:36:09 · 116 阅读 · 0 评论 -
通过keepalived+nginx实现高可用的主备切换
keepalived+nginx双机热备1 配置VIP2 安装keepalived3 配置keepalived4 测试服务器准备192.168.230.105(主)192.168.230.106(从)VIP:127.0.0.0要配置系统文件网络文件vi /etc/sysconfig/network-scripts/ifcfg-eth0:0E=eth0:0TYPE=EthernetONBOOT=yesBOOTPROTO=staticDNS1=192.168.230.2IPAD原创 2021-08-23 17:04:24 · 455 阅读 · 0 评论 -
实现Nginx和两个Tomcat的赋值集群
1、Nginx的工作模型1.1、master-worker模式1、Nginx 在启动后,会有一个 master 进程和多个相互独立的 worker 进程。2、Master 接收来自外界的信号,向各 worker 进程发送信号,每个进程都有可能来处理这个连接。3、Master 进程能监控 Worker 进程的运行状态,当 worker 进程退出后(异常情况下),会自动启动新的 worker 进程。1.2、nginx 虚拟主机演示虚拟主机,就是将一台物理服务器虚拟为多个服务器来使用,从而实现在一原创 2021-08-23 16:26:48 · 89 阅读 · 0 评论 -
什么是大数据
1、什么是大数据大数据是一个规模达到在获取、存储、管理、分析方面大大超出了传统数据库软件工具能力范围。数据的量多到PB级别2、大数据的特点4V:volume(大量)、velocity(高速 )、variety(多样)、value(价值)3、大数据的结构结构化数据:简单来说就是数据库;是由二维表结构来逻辑表达和实现的数据;非结构化数据:数据结构不规则或不完整;没有预定的数据模型;(如:聊天的数据,浏览商品的数据)...原创 2021-07-28 22:20:45 · 172 阅读 · 0 评论