数据与后端架构提升之路
没人会把我们变的越来越好,时间也只是陪衬。支撑我们变的越来越好的是我们自己不断进阶的才华,修养,品行以及不断的反思和修正
展开
-
数据驱动决策的重要工具
本文探讨了在线实验设计中的几种关键方法,包括A/B测试、多臂赌博机(MAB)、交错测试、异质性处理效应(HTE)分析和因果推断。A/B测试通过随机分组和关键指标测量,比较两个版本的性能。MAB通过算法如ε-greedy、UCB和Thompson采样,在探索与利用间找到平衡。交错测试适用于搜索引擎和推荐系统,通过用户反馈比较不同排序算法。HTE分析通过分层或机器学习方法,识别不同用户群体对处理的反应差异。因果推断,如随机对照试验(RCT)、工具变量(IV)和断点回归(RDD),旨在确定处理与结果间的因果关系。原创 2024-05-17 10:44:25 · 9 阅读 · 0 评论 -
GeoHash编码在日志数据处理中的应用与优化
本文详细介绍了如何将GPS坐标转换为GeoHash编码,以便于进行地理位置维度分析。首先解释了GeoHash编码的原理和优势,然后展示了如何使用现成的GeoHash工具包进行坐标转换。接着,通过编写Hive UDF,实现了在Hive中直接进行GeoHash编码的功能。最后,介绍了如何利用高德API服务来补充和完善地理位置字典,以提高数据处理的准确性。原创 2024-01-28 22:14:07 · 206 阅读 · 1 评论 -
ID Mapping技术解析:从Redis到Spark GraphX的演进与应用
本文深入探讨了ID Mapping技术在处理多设备、多平台用户标识不一致问题中的应用。首先介绍了ID Mapping的背景和重要性,然后详细阐述了基于Redis和Spark GraphX的两种ID Mapping方案,包括它们的实现思路、具体代码示例以及在实际生产环境中的应用。最后,文章提供了相关资料链接,为读者提供了进一步学习和实践的资源。原创 2024-01-28 18:54:14 · 469 阅读 · 0 评论 -
从实践角度优化数据库设计:深入解析三范式的应用
在数据库设计中,范式(Normal Form)是用来评估关系模式(即数据库表结构)的一种方法,目的是减少数据冗余和提高数据完整性。不同的范式级别有不同的要求和规范。原创 2023-12-20 15:42:40 · 981 阅读 · 1 评论 -
项目中为什么通常flume和kafka要共同使用
Kafka 是一个非常通用的系统。你可以有许多生产者和很多的消费者共享多个主题Topics;Flume是一个专用工具被设计为旨在往HDFS,HBase发送数据。它对HDFS有特殊的优化,并且集成了Hadoop的安全特性原创 2020-08-27 07:26:00 · 1475 阅读 · 0 评论 -
HDFS 3.x 数据存储新特性-纠删码
EC(纠删码)是⼀种编码技术,能达到和副本机制相同的容错能⼒但是能⼤幅度降低存储成本的机制原创 2023-12-05 19:26:00 · 874 阅读 · 0 评论 -
数据指标体系建设思路
数据指标体系建设思路原创 2023-11-16 16:30:01 · 122 阅读 · 0 评论 -
IOTDB的TsFile底层设计
TsFile 是 IoTDB 中使用的时间序列文件格式。它是一种面向时序数据定义的一种文件格式,其提供了一套将时序数据转换为字节的规则,在减少磁盘占用的前提下,有效地提升了数据查询分析的效率,能够为上层应用提供良好的数据存储和查询支持。原创 2023-09-26 18:47:49 · 645 阅读 · 0 评论 -
SpringBoot整合MybatisPlus多线程下切换数据源的设计方案
大数据项目经常同一个项目里会有涉及多数源的场景原创 2023-09-19 22:19:04 · 263 阅读 · 0 评论 -
Apache Doris大规模数据使用指南
Apache Doris是一个现代化的MPP分析性数据库产品。仅需要亚秒级响应时间即可获得查询结果,有效地支持实时数据分析。Apache Doris可以满足多种数据分析需求,例如固定历史报表,实时数据分析。原创 2023-08-18 12:26:37 · 1491 阅读 · 0 评论 -
/etc/profile和~/.bash_profile等文件的区别和联系
主要配置文件的理解原创 2023-05-30 17:05:50 · 960 阅读 · 0 评论 -
Druid、Doris中构建bitmap索引和维度字典实现高效查询
bitmap 索引广泛应用于很多大数据OLAP引擎中,如Druid、Kylin、Doris等,是一种高效的索引技术原创 2023-05-06 22:43:22 · 442 阅读 · 0 评论 -
Hive 中的explode , lateral view,lateral view stack
explode 和 lateral view这两个经常放在一起用原创 2023-04-21 15:49:41 · 268 阅读 · 0 评论 -
主流时序数据库对比和架构分析
时间序列数据库主要用于指处理带时间标签(按照时间的顺序变化,即时间序列化)的数据,带时间标签的数据也称为时间序列数据。原创 2023-04-14 11:32:25 · 729 阅读 · 0 评论 -
Spark on Hive动态分区表的应用
运行Spark的时候,同时跑多个任务对同一张表(parquet格式),同时写多个Hive分区,需要加一下参数set("spark.sql.hive.convertMetastoreParquet","false");这样的话,所使用的spark临时目录就是独立(静态分区默认共用一个临时目录),不会冲突。 如果是orc格式,里面的关键字改成Orc就行。原创 2023-03-31 15:01:17 · 1303 阅读 · 0 评论 -
从一个实例配置引入Prometheus的PromQL语法
PromQL提供对时间序列数据进行逻辑运算、过滤、聚合的支持。应用于数据查询、可视化、告警处理原创 2023-03-01 14:13:48 · 471 阅读 · 0 评论 -
Hive修复分区或修复表 以及msck命令的使用
hive里有数据,MySQL数据库坏了,导致hive元数据信息丢失,但是hdfs上hive表的数据并没有丢失。可以使用msck repair table xxxxx命令修复!原创 2023-02-14 10:16:11 · 1215 阅读 · 0 评论 -
Flink整合Prometheus Pushgetway讲解与实战操作
Pushgateway是Prometheus的一个组件,prometheus server默认是通过Exporter主动获取数据(默认采取pull拉取数据)原创 2023-02-09 21:08:30 · 755 阅读 · 0 评论 -
Shell数组${arr[*]}和${arr[@]}区别
引用数组中所有元素时${arr[*]}和${arr[@]}是有细微区别的原创 2023-02-07 14:25:59 · 780 阅读 · 0 评论 -
Presto架构和使用总结
Presto是一个开源的分布式SQL查询引擎,数据量支持GB到PB字节,主要用来处理秒级查询的场景。注意:虽然Presto可以解析SQL,但它不是一个标准的数据库。不是MySQL、Oracle的代替品,也不能用来处理在线事务(OLTP)。原创 2023-01-03 15:55:37 · 705 阅读 · 2 评论 -
数仓常用排序详解
数仓常用排序详解原创 2022-12-01 12:21:35 · 887 阅读 · 0 评论 -
Protobuf: 免疫反序列化攻击且高效解析的秘密
protobuf (protocol buffer) 是谷歌内部的混合语言数据标准。通过将结构化的数据进行序列化(串行化),用于通讯协议、数据存储等领域的语言无关、平台无关、可扩展的序列化结构数据格式。原创 2022-11-30 12:42:26 · 2312 阅读 · 0 评论 -
Hive的分区和分桶介绍
Hive的分区和分桶介绍原创 2022-11-28 21:10:35 · 338 阅读 · 0 评论 -
利用YARN多队列实现Hadoop资源隔离
大数据处理离不开hadoop集群的部署和管理,对于本来硬件资源就不多的创业团队来说,做好资源的共享和隔离是很有必要的,毕竟不像BAT那么豪,那么怎么样能把有限的节点同时分享给多组用户使用而且互不影响呢,我们来研究一下yarn多队列做资源隔离原创 2022-11-02 20:29:15 · 1872 阅读 · 0 评论 -
Excel对比不同Sheet的关键词个数匹配(VLOOKUP的应用)
VLOOKUP的应用原创 2022-10-02 01:35:47 · 1714 阅读 · 0 评论 -
Hive lateral view和get_json_object,json_tuple 用法
Hive lateral view ,get_json_object,json_tuple 用法原创 2022-09-02 18:16:07 · 673 阅读 · 0 评论 -
Hive合并小文件的配置项
j减少小文件策略:启动压缩, 启动合并,减少map数,shuffle合并,reduce合并,使用HAR归档文件原创 2022-04-28 00:17:34 · 1066 阅读 · 0 评论 -
Hive中json 字符串解析之 get_json_object 与 json_tuple
hive 中 json 字符串解析原创 2022-04-18 17:43:43 · 8033 阅读 · 0 评论 -
Hadoop DataNode如何将TB级大文件的上传性能优化上百倍
为什么需要这么多缓冲机制呢?就像漏斗灌水一样,如果漏斗的锥形倾斜度太大的话无法起到有效缓冲的作用,反而影响水流速度原创 2022-01-07 09:58:38 · 752 阅读 · 0 评论 -
Hadoop NameNode如何承载每秒上千次的高并发访问
目录一、问题源起二、HDFS优雅的解决方案(1)分段加锁机制+内存双缓冲机制(2)多线程并发吞吐量的百倍优化(3)缓冲数据批量刷磁盘+网络的优化四、总结一、问题源起我们先来分析一下,高并发请求NameNode会遇到什么样的问题。大家现在都知道了,每次请求NameNode修改一条元数据(比如说申请上传一个文件,那么就需要在内存目录树中加入一个文件),都要写一条edits log,包括两个步骤: 写入本地磁盘。 通过网络传输给JournalNodes集...原创 2022-01-07 09:40:04 · 794 阅读 · 0 评论 -
Airflow运维部署功能调研
Airflow入门操作指南原创 2021-10-21 19:01:37 · 2711 阅读 · 0 评论 -
Datax和Kettle使用场景的对比
Datax和Kettle的对比较维度\产品 kettle DataX 设计及架构 适用场景 面向数据仓库建模传统ETL工具 面向数据仓库建模传统ETL工具 使用方式 C/S客户端模式,开发和生产环境需要独立部署,任务的编写、调试、修改都在本地,需要发布到生产环境,线上生产环境没有界面,需要通过日志来调试、debug,效率低,费时费力 DataX是以脚本的方式执行任务的,需要完全吃透源码才可以调用,学习成本高,没有图形开发化界面和监控界面,运维成本相对高。原创 2021-10-19 08:50:36 · 12174 阅读 · 6 评论 -
OLTP与 OLAP混合使用实例—TiDB
TiDB是开源分布式关系型数据库,是一款同时支持在线事务处理与在线分析处理 (Hybridand Analytical Processing, HTAP) 的融合型分布式数据库产品,具备水平扩容或者缩容、金融级高可用、实时 HTAP、云原生的分布式数据库、兼容 MySQL 5.7 协议和 MySQL 生态等重要特性。目标是为用户提供一站式 OLTP (Online Transactional Processing)、OLAP (Online Analytical Processing)、HTAP 解决原创 2021-10-15 17:23:26 · 2768 阅读 · 0 评论 -
事实表设计方法论
深入理解事实表设计:掌握粒度声明、维度选择、事实确定与处理,区分事务、周期快照与累积快照事实表,优化数据仓库性能原创 2021-10-11 16:35:46 · 1162 阅读 · 0 评论 -
Impala的原理和介绍
Impala是Cloudera公司推出,提供对HDFS、Hbase数据的高性能、低延迟的交互式SQL查询功能。基于Hive,使用内存计算,兼顾数据仓库、具有实时、批处理、多并发等优点。是CDH平台首选的PB级大数据实时查询分析引擎。原创 2021-10-09 16:46:34 · 1322 阅读 · 0 评论 -
大数据常用的架构
随着多年的大数据的技术发展和积累,越来越多的人发现各个公司所使用的大数据技术大致可以分为两大类,分别是离线处理技术和实时处理技术,要么个别公司只有离线处理技术,要么个别公司只有实时处理技术,但是绝大部分公司基本上都是两种技术架构都带着一起在做,以为我们的业务一、lamda架构基本介绍1、业务系统基本流程介绍2、lamda架构基本介绍lamda架构最早是由storm的创始人,Nathan Marz进行提出并描述了我们目前所了解的lambda架构,其实lamda架构先入为主,已经..原创 2021-10-09 14:46:26 · 1525 阅读 · 0 评论 -
电商大数据分析模块的设计和概念
电商模块核心关注点 a.购买率 b.订单数量 c.会员数量 d.用户数量用户: 访问网站的非登录客户 区分用户方式 PC端/web移动端: 1)、采用IP地址来区分用户 问题: 由于会由于一些技术代理等问题导致多个用户共用一个IP地址? 2)、采用客户端种植cookie 方式 ...原创 2019-08-18 21:27:14 · 1720 阅读 · 0 评论 -
Greenplum的发展和原理介绍
Greenplum是一个面向数据仓库应用的关系型数据库,它基于流行的PostgreSQL开发,因为有良好的体系结构,所以在数据存储,高并发,高可用,线性扩展,反应速度,易用性和性价比等方面有非常明显的优势,非常受欢迎.进入大数据时代以后,Greenplum的性能在TB级别数据量的表现上非常优秀,单机性能相比Hadoop要快上好几倍,Greenplum有着完善的工具,整个体系都比较完善,原创 2021-09-10 18:01:01 · 481 阅读 · 0 评论 -
Datax与Sqoop的对比
sqoop主要特点1、可以将关系型数据库中的数据导入hdfs、hive或者hbase等hadoop组件中,也可将hadoop组件中的数据导入到关系型数据库中;2、sqoop在导入导出数据时,充分采用了map-reduce计算框架,根据输入条件生成一个map-reduce作业,在hadoop集群中运行。采用map-reduce框架同时在多个节点进行import或者export操作,速度比单节点运行多个并行导入导出效率高,同时提供了良好的并发性和容错性;3、支持insert、update模式,可以转载 2020-08-09 23:58:30 · 16473 阅读 · 8 评论 -
数据可视化与分析:下钻、上卷与转轴操作详解
本文详细解释了数据可视化中的下钻、上钻和转轴操作,通过XMind、豌豆BI和Tableau等工具的实际应用案例,展示了如何聚焦特定数据分支、分析数据关联性以及转换数据布局,以优化数据分析过程。下钻:从当前数据往下展开下一层数据。例如:(某数据的分类下面分为品名)从分类列表展开到品名列表。 上钻、下钻统称钻取。切片:展现同一层面的数据。如上述的产品。转轴:这些应该属于查询、展现范畴原创 2021-08-30 16:39:50 · 10551 阅读 · 0 评论