大数据
文章平均质量分 62
山森海子
资深大数据工程师
展开
-
大数据研发能力模型(面试准备)
这是一张大数据研发工程师面试时重点考察能力的脑图,包括项目经历、java、大数据、数仓、算法、管理等方面。这是我在面试大数据研发岗过程中根据面试重点考察内容总结出来的一些能力要求,分享出来供大家日常学习成长和面试做准备之用。原创 2022-10-18 13:38:24 · 954 阅读 · 1 评论 -
数仓建设之九阴真经
什么是大数据建设方法论?主要是围绕集团数据资产建设和管理的丰富实践沉淀总结下来的经验和方法。主要包括数仓建设、规范定义和数据治理的一些内容。原创 2022-05-07 20:46:12 · 526 阅读 · 0 评论 -
国际化报表如何支持多时区的方案思考
公司CDN和边缘云业务不断开拓海外市场,逐渐走向国际化,服务于更多的海外客户。与此同时,海外客户的数据需求也会不断增加,这时候就会面临一个问题,数据仓库中天、月等分区报表基本都是以北京时间来计算,海外客户可能更需要看到自己所在时区的数据,如何解决这个问题将是一个不小的挑战。原创 2022-01-08 10:48:00 · 1407 阅读 · 0 评论 -
大数据领域各职业介绍与发展路线
根据本人多年大数据领域从业经验,以及对大数据的理解,给大家介绍大数据各职业情况以及未来发展方向,为初入行者和正在迷惘期的同行提供一些参考。原创 2021-12-12 12:54:34 · 4256 阅读 · 0 评论 -
Hadoop大数据技术生态
一、大数据技术生态图 Ambari:可以安装、部署及管理hadoop、hive、hbase、zk等集群。 HDFS:Hadoop中的分布式文件存储系统。 Yarn:Hadoop中的集群资源管理和调度系统。 MapReduce:Hadoop中的分布式离线计算框架。 Spark:分布式内存计算框架。包括sparkcore、sparkstreaming、sparkmllib等组件。 Tez:对MapReduce任务进行优化,加快执行速度。 ...原创 2020-12-29 21:52:54 · 1200 阅读 · 1 评论 -
Grouping Sets、CUBE、ROLLUP总结
目录Grouping SetsCUBE and ROLLUPGROUPING和GROUPING_ID函数Grouping Sets、CUBE 、ROLLUP 、LATERAL VIEW EXPLODE区别Grouping Sets对于经常需要对数据进行多维度的聚合分析的场景,您既需要对a列做聚合,也要对b列做聚合,同时要按照a,b两列同时做聚合,因此需要写很多UNION ALL。但使用Grouping Sets可以非常快速方便地解决此类问题。MaxCompute中的Groupi.原创 2020-10-29 21:57:06 · 1500 阅读 · 1 评论 -
大厂大数据岗位面试随笔
腾讯阿里面试记录1、腾讯面试2、阿里面试1、腾讯面试腾讯PCG事业部 大数据开发岗技术一共三面:spark数据分发机制Hadoop集群高可用机制阐述Spark Streaming给个具体视频应用场景阐述开发思路及任务架构(期间会涉及到数据存储,查询,字段设计、及哪部分数据适合用哪种数据库mysql、Hbase的一些知识。)树结构的遍历方式并及根据前中序遍历结果反推树结构、树结构中...原创 2019-07-10 12:54:07 · 1964 阅读 · 2 评论 -
ZooKeeper知识精华
1.ZooKeeper是什么?ZooKeeper是一个分布式的,开放源码的分布式应用程序协调服务,是Google的Chubby一个开源的实现,它是集群的管理者,监视着集群中各个节点的状态根据节点提交的反馈进行下一步合理操作。最终,将简单易用的接口和性能高效、功能稳定的系统提供给用户。客户端的读请求可以被集群中的任意一台机器处理,如果读请求在节点上注册了监听器,这个监听器也是由所连接的zook...转载 2019-06-14 14:20:14 · 358 阅读 · 0 评论 -
Hadoop集群运维
集群故障模拟场景1:namenode节点故障,active namenode节点状态切换?如何恢复?1.1 Hadoop HA 的namenode状态切换测试测试机模拟线上环境测试,namenode进程down掉一个后,active和standby状态名称节点切换正常。测试步骤:把standby namenode进程kill掉,active节点服务正常,不影响hadoop集群服务,数据...原创 2019-06-06 12:15:02 · 6178 阅读 · 6 评论 -
Spark on Yarn任务运维
spark on yarn 实时任务场景:对于集群故障和集群配置调整可能对spark实时任务造成的影响及所需采取措施进行模拟,并制定对应解决方案。方案总结:针对下文总结的实时任务存在的隐患,可对hadoop集群配置进行以下调整优化(优化方案需先在测试集群上测试):增加yarn AM进程的容错重试次数,默认只有一次,调大后可增加长期在yarn上运行的任务的稳定性。保留RM、NM进程的运行时...原创 2019-06-06 12:08:37 · 1076 阅读 · 0 评论 -
Kafka架构、组件及核心概念
目录:一、什么是Kafka? 1.1、为什么需要消息系统(MessageQueue) 1.2、常用Message Queue对比 1.3、Kafka优缺点:二、kafka架构 2.1 kafka组件说明: 2.2 kafka拓扑结构: 2.3 zookeeper 存储结构三、核心组件及概念 ...原创 2019-03-17 11:09:39 · 4754 阅读 · 0 评论 -
Scala语言总结概括(代码实例版)
Scala是一门多范式的编程语言,一种类似java的编程语言,设计初衷是实现可伸缩的语言、并集成面向对象编程和函数式编程的各种特性。Scala 运行在Java虚拟机上,并兼容现有的Java程序。Scala 源代码被编译成Java字节码,所以它可以运行于JVM之上,并可以调用现有的Java类库。 下面这段程序用到了scala许多基础知识,通过它可以宏观的了解整个Scal原创 2017-03-08 11:31:57 · 924 阅读 · 0 评论 -
Hadoop序列化及IPC通信机制简析
一、Hadoop序列化1、简介:什么是序列化?将对象编码成一个字节流。 反序列化:将一个字节流编码成对象。序列化主要有三种主要用途:作为一种持久化存储。可以把对象序列化后存储到磁盘上,供以后反序列化使用。 作为一种通信数据格式。 作为一种拷贝、克隆机制。序列化在分布式数据处理的常用上面提到的前两种功能:持久化存储和进程间通信。 处理大规模数据的hadoop...原创 2017-11-23 11:18:16 · 904 阅读 · 0 评论 -
Flume整体架构总结
Flume简介: Flume 是Cloudera提供的一个高可用的,高可靠的,分布式的海量日志采集、聚合和传输的系统, Flume支持在日志系统中定制各类数据发送方,用于收集数据;同时,Flume提供对数据进行简单处理,并写到各种数据接受方(可定制)的能力。(Flume使用java编写,支持Java1.6及以上。)由原来的Flume OG到现在的Flume NG,进行了架构重构,并且现在NG版本完...原创 2017-11-09 16:32:29 · 2048 阅读 · 0 评论 -
基于Hadoop HA的Hbase集群搭建
集群搭建简介:hbase集群搭建总体较为简单,但是网上很多文章写的都挺乱的,所以自己写了这篇文章基于hadoop HA搭建hbase集群的文章,充分查阅了官方文档相当靠谱。安装主要步骤为:下载并解压安装包,修改配置文件,发送到其他节点。期间注意hbase的master节点要能ssh通其他region节点,不然启动时候需要手动输入密码。前期准备:hadoop HA环境已搭建成功,zoo...原创 2017-11-24 13:13:04 · 2358 阅读 · 2 评论 -
HBase RowKey设计原则(全面)
这篇HBase的行健设计原则文章主要依据HBase官方文档和一些相关文章总结而来,可以说是比较靠谱和全面的一个rowkey设计总结。主要还是分四块来介绍:RowKey的设计原则1. rowkey长度原则 2.rowkey散列原则 3.时间戳反转 Reversiong the Key 4. rowkey唯一原则。原创 2017-12-04 12:43:45 · 5549 阅读 · 0 评论 -
Hadoop HA高可用集群环境搭建(CenOS7)
Hadoop HA 集群简介: HDFS集群中NameNode 存在单点故障(SPOF)。对于只有一个NameNode的集群,如果NameNode机器出现意外情况,将导致整个集群无法使用,直到NameNode 重新启动。 影响HDFS集群不可用主要包括以下两种情况:一是NameNode机器宕机,将导致集群不可用,重启NameNode之后才可使用;二是计划内的NameNode节...原创 2017-11-21 18:02:33 · 1331 阅读 · 0 评论 -
Flume线上集群的吞吐量瓶颈排查及优化
记录一次flume线上环境的吞吐量瓶颈排查和解决方案。1、线上Flume集群架构简介Flume线上架构图如下:目前线上部署flume的服务器有六十台左右,主要分外网环境和内网环境,这些都是游戏的服务器集群,每个游戏的服务器集群可能单独有一套外网环境(包含flume跳板机)。外网环境A和内网环境B的flume都会往内网跳板机发送数据,分发方式是负载均衡模式,两个内网跳板机收集所有数据再发...原创 2019-03-11 11:49:11 · 2298 阅读 · 0 评论 -
Flume自定义监控实现数据上报功能—Custom Reporting
1、flume监控背景 保证日志采集系统flume进程的稳定和出现问题后能及时修复,需对flume进程进行监控。flume目前提供的几种数据监控类型:JMX Reporting、Ganglia Reporting、JSON Reporting、Custom Reporting等。 本文通过Custom Reporting实现自定义数据上报,代码实现并不复...原创 2019-03-11 19:14:26 · 1604 阅读 · 0 评论 -
Kafka监控-JMX自定义监控以及常用监控工具比较
目录:一、通过JMX自定义监控1、jconsole2、Java监控代码:二、Kafka三款监控工具比较(转载)1、Kafka Web Conslole2、Kafka Manager3、KafkaOffsetMonitor一、通过JMX自定义监控通过JMX监控可以看到的数据有:broker数据指标 topic数据指标 每个partition的数据指...原创 2019-03-20 18:19:52 · 5412 阅读 · 0 评论 -
Nginx服务器及相关体系组件总结
1.Nginx基础Nginx简介:静态HTTP服务器,反向代理服务器(还是为了后面的负载均衡功能)负载均衡(多台服务器或虚拟主机)。Apache和Nginx对比:Nginx优点:轻量级、配置简洁、抗并发、高度模块化。Apache优点:rewrite强大,模块极为丰富,超稳定。Tomcat:Tomcat也可以认为是HTTP服务器,但通常它仍然会和Nginx配合在一起使用:动静原创 2017-11-09 08:39:38 · 800 阅读 · 0 评论