大数据
文章平均质量分 75
治愈爱吃肉
一只正在猥琐发育的程序员。。。。
展开
-
Spark工作总结(干货篇)
Spark工作总结原创 2022-09-28 10:56:23 · 3491 阅读 · 0 评论 -
python项目服务器部署上线
python项目服务器部署上线原创 2022-09-28 10:54:15 · 484 阅读 · 1 评论 -
hive使用总结
hive使用总结原创 2022-09-28 10:47:51 · 436 阅读 · 0 评论 -
数仓建模知识总结
个人平时工作对数仓建模的简单总结,持续更新原创 2022-09-28 10:47:02 · 250 阅读 · 0 评论 -
Hive实际工作场景Sql题(业务自想)
3年大数据开发经验,结合业务所需构思的工作时常遇`sql`效果场景(实际业务场景可结合`sql`题自我构思)原创 2022-09-28 10:33:53 · 439 阅读 · 0 评论 -
ZK、Hadoop、Hbase、Spark、Flink、Redis等集群生态安装文档(持续更新)
zookeeper、hadoop、kafka、hive、flink、spark、kafkamanager、clickhouse、sqoop、hbase、flume、redis集群安装手册,其中spark、flink、hive(mapreduce)采用的是提交至yarn资源管理器执行任务方式,所以采用单节点配置原创 2022-09-28 10:21:07 · 809 阅读 · 0 评论 -
Opentsdb On Hbase 设计 region 预分区
Opentsdb On Hbase 设计 region 预分区如何查看region读写是否分布均匀方法一: 通过hbase webui页面a) 查看opentsdb.conf 中 指定的存储数据点的HBase表名 由此得知表名是tsdbb) 通过hbase ui 查看数据分布 hbase版本不同查看方式会有出路方法二:通过查看hdfs目录结构c) 查看hdfs目录下文件大小是否平衡如何设计hbase rowkeyOpentsdb源码中 rowkey生成插入数原创 2022-02-15 08:57:25 · 463 阅读 · 0 评论 -
带你学习Hive的多维立方体
多维立方体概述: 实际生产中,各种指标的报表统计,往往都会设计到多维分析,比如: 统计日活数量,日会话数量,日会话次数,日回头访问数,日新增,日用户平均访问时长,访问深度等,都可以从以下纬度来分析:时间段省市区等地域纬度设备类型操作系统App版本App下载安装渠道而数据分析师,可能会提出各种各样的"纬度组合"下的指标统计需求省: 日活总数省、市:日活总数手机型号,日活总数省,手机型号,日活总数如果上述纬度分析需求,都逐个开发计算sql(逐个去group by 聚合)原创 2021-05-09 15:18:30 · 334 阅读 · 0 评论 -
Zookeeper水平扩展节点
zookeeper水平扩展节点方案:方案1:对每个节点的zoo.cfg文件进行修改,添加server节点信息,之后重启zk服务器,达到水平扩展节点方案2:不重启zk服务器,将修改好的zoo.cfg文件发送至各个节点,开启新增节点,因为zk的心跳机制,可以将zk加入至zk集群中,但是信息不一致需要手动将zk中的信息同步过去,例如采用java,python代码转移,一般CDH水平扩展zk节点采用的也是同样的方法个人博客 www.yazz.top 更多Java,大数据,python学习资料...原创 2021-03-21 14:16:29 · 420 阅读 · 0 评论 -
Spark学习(一)
文章目录RDD产生的条件(3种)Spark的弹性体现持久化和checkpoint的区别Spark集群管理器Spark核心概念介绍Master:Worker:Spark中`client`和`cluster`提交的区别Standalone-ClientStandalone-ClusterYarn-ClientYarn-clusterSpark资源调度和任务调度的流程资源调度:任务调度:粗粒度资源申请和细粒度资源申请粗粒度资源申请(代表Spark)细粒度资源申请(代表MR)RDD产生的条件(3种)从集合中创原创 2021-01-25 15:35:55 · 278 阅读 · 2 评论 -
Spark算子总结
Spark算子总结文章目录Spark算子总结Transformations转化算子Value类型MapmapPartitionsmapPartitionWithIndex(`func`)flatMap(`func`)glomgroupByfilterdistinctrepartition(`numPartitions`)sortBy(`func`)双Value类型交互unionsubtractintersectionKey-Value类型groupByKeyreduceByKeysortByKeyjoin原创 2020-12-31 08:48:30 · 214 阅读 · 0 评论 -
HDFS解决小文件问题
HDFS小文件弊端HDFS上每个文件都要在NameNode上建立一个索引,这个索引的大小越为150byte,这样当小文件比较多的时候,就会产生很多的索引文件,不仅会占用大量的NameNode内存,同时NameNode中索引文件过大,导致索引速度过慢小编工作中就遇到过因为小文件过多而产生的问题:主NameNode宕机时,备用NameNode启动过慢,那是大家都以为是环境配置问题,到最后才发现是因为小文件过多,索引信息太大,才会导致备用NameNode启动过慢HDFS小文件解决方案1) 数原创 2020-08-25 19:57:53 · 226 阅读 · 0 评论 -
Hbase预分区
Hbase预分区什么是预分区HBase表在刚刚创建时,只有一个分区(Region),当一个region过大(达到 **hbase.max.filesize ** 属性中定义阈值,默认10GB)时,表将会进行split,分裂成2个分区,表在进行split的时候,会消耗大量资源,频繁的分区对HBase的性能有巨大的影响。HBase提供了预分区功能,即用户可以在创建表的时候对表按照一定的规则分区。预分区的目的是什么减少由于Region split带来的资源消耗,从而提高HBase性能如何预转载 2020-07-16 16:51:41 · 191 阅读 · 0 评论