![](https://img-blog.csdnimg.cn/20201014180756930.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
转载或笔记
知了小巷
Java 大数据 架构设计;微信可关注 知了小巷 公众号,一起交流学习!
展开
-
详细分析 Java 中实现多线程的方法有几种?(本质)
正确说法(本质)实现多线程的官方正确方法: 2 种。Oracle 官网的文档说明https://docs.oracle.com/javase/8/docs/api/index.htmlpublic class Threadextends Objectimplements RunnableA thread is a thread of execution in a program. The Java Virtual Machine allows an application to have转载 2020-09-26 21:41:39 · 254 阅读 · 1 评论 -
Hive程序相关规范-有助于调优
一份拥有良好代码风格的程序,有助于开发者发现性能问题,缩短调优的时间,降低维护成本,同时也能促进程序员的自我提高。规范分为三类:开发规范、设计规范和命名规范。</>开发规范# 单条SQL长度不宜超过一屏。# 少用或者不用Hint,特别是在Hive2.0后,增强HiveSQL对于成本调优(CBO)的支持,在业务环境变化时可能会导致Hive无法选用最优的执行计划。# 避免SQL代码的复制、粘贴。如果有多处逻辑一致的代码,可以将执行结果存到临时表中。# 尽可能使用SQL..转载 2020-08-09 20:24:29 · 360 阅读 · 0 评论 -
HBase内部探险-数据模型
#</>数据模型HBase数据模型的核心概念Namespace(表命名空间):表命名空间不是强制的,默认是default。当想把多个表分到一个组去统一管理的时候才会用到表命名空间。类似传统关系型数据库中的数据库database或schema。Table(表):一个表由一个或者多个列族组成。它有一些数据属性,比如超时时间(TTL),压缩算法(COMPRESSION)等,都在列族的定义中定义。定义完列族后表是空的,只有添加了行,表才有数据。Row(行):一个行包含了多个列,这些列通.转载 2020-08-04 23:21:07 · 170 阅读 · 0 评论 -
数据中台为什么那么火?
数据中台为什么这么受欢迎?为什么有这么大的需求?数据实际上是一个非常传统的行业。在有软件开始的那一天起,数据这个行业就存在了。比如说原来最早的时候,有非常多的数据报表数据可视化,然后到后来,有了商业智能,有了Data Warehouse(就是数据仓库),然后数据挖掘,并且在数据这个行业里面是有非常多的巨头的,比如teradata、canis-biee、microstrategy等。然后数据这个行业不仅仅是软件,它还有管理的部分,也就是说数据治理,即如何让企业的数据治理的质量更好。所以数据这个转载 2020-07-31 09:07:07 · 1192 阅读 · 0 评论 -
Kafka基础知识总结
1.Kafka分区复制和多数据中心架构2.Kafka压测Kafka官方自带压力测试脚本:(kafka-consumer-perf-test.sh、kafka-producer-perf-test.sh)。Kafka压测时,可以查看到哪个地方出现了瓶颈(CPU,内存,网络IO)。一般都是网络IO达到瓶颈。3.Kafka的机器数量Kafka机器数量 = 2*(峰值生产速度 * 副本数 / 100)+14.Kafka的日志保存时间默认7天,可修改...转载 2020-07-07 07:51:55 · 870 阅读 · 0 评论 -
数据体系的四个层次:数据采集、数据计算、数据服务和数据应用
1.数据采集层客户端日志采集方案:Web日志采集技术方案和APP端日志采集技术方案。在采集技术基础之上,不同的业务场景会有与之相适应的埋点规范,来满足通用的浏览、点击、特殊交互、APP事件、H5 APP里的H5 Native日志数据打通等多种业务场景。高性能的数据传输:既包括数据库的增量数据传输,也包括日志数据的传输;既支持实时流式计算,也支持各种时间窗口的批量计算。同步中心:同步工具DataX,直连异构数据库(备库)来抽取各种时间窗口(每天、每小时)的数据。2.数据计算层...转载 2020-07-07 07:44:28 · 16822 阅读 · 0 评论