大数据
文章平均质量分 88
Java与大数据进阶
这个作者很懒,什么都没留下…
展开
-
大数据书籍资源分享
文章目录1.城通网盘FlumeFlume构建高可用、可扩展的海量日志采集系统FlinkFlink编程指南HadoopHadoop实战-陆嘉恒(高清完整版)Hadoop权威指南_第四版_中文版Hadoop权威指南_第四版_英文原版Hadoop权威指南 中文版Hadoop基础教程Hadoop技术内幕:深入解析YARN架构设计与实现原理Hadoop 2.X HDFS源码剖析 带书签目录HiveHive编程指南Hive 简明教程HBaseHBase实战中文版HBase权威指南ZooKeeper从PAXOS到ZOO原创 2021-02-22 16:23:48 · 175 阅读 · 0 评论 -
四个月大数据自学进大厂总结
1 个人情况介绍首先介绍一下基本情况,本科211非科班,硕士985计算机,参加21届秋招,拿到百度和美团offer。我从大三开始决定转计算机,先学Python,然后是Java SE,大四学了算法和数据结构以及机器学习。当时主要是看书和慕课视频,有很多不足。首先只是入门,没有深入学习,也没有做项目,导致印象不够深刻。其次是学习算法和数据结构只是看书,没有刷题,很多算法在找工作基本用不到(比如图的几个算法),不刷题就对它们的使用和变化理解不深。研究生2年,研一上半年做了一百道leetcode,下半年20原创 2021-02-11 20:04:52 · 937 阅读 · 0 评论 -
ZooKeeper面试题
1. ZooKeeper介绍1.ZooKeeper从设计模式角度来理解:是一个基于观察者模式设计的分布式服务管理框架,它负责存储和管理大家都关心的数据,然后接受观察者的注册,一旦这些数据的状态发生变化,ZooKeeper就将负责通知已经在ZooKeeper上注册的那些观察者做出相应的反应。2. 特点1)ZooKeeper:一个领导者(Leader),多个跟随者(Follower)组成的集群。2)集群中只要有半数以上节点存活,ZooKeeper集群就能正常服务。3)全局数据一致:每个Server保原创 2021-02-11 14:11:50 · 345 阅读 · 0 评论 -
Spark面试题
1. Spark的三种部署模式1. Local模式:单机调试local:只启动一个线程local[k]:启动k个线程local[*]:启动cpu数目的线程2. 分布式(1)standalone模式:在架构上和MapReduce1具有一致性,资源抽象为粗粒度的slot,slot决定task。(2)Spark on yarn模式(☆)Spark客户端直接连接Yarn,不需要额外构建Spark集群。有yarn-client和yarn-cluster两种模式,主要区别在于:Driver程序的运行节原创 2021-02-11 14:03:39 · 540 阅读 · 0 评论 -
Kafka面试题
1. Kafka介绍Kafka 是一个分布式的基于发布/订阅模式的消息队列(Message Queue),主要应用于大数据实时处理领域。2. 消息队列的两种模式(1)点对点模式(一对一,消费者主动拉取数据,消息收到后消息清除)消息生产者生产消息发送到Queue中,然后消息消费者从Queue中取出并且消费消息。消息被消费以后,queue中不再有存储,所以消息消费者不可能消费到已经被消费的消息。Queue支持存在多个消费者,但是对一个消息而言,只会有一个消费者可以消费。(2)发布/订阅模式(一对原创 2021-02-11 13:49:56 · 526 阅读 · 0 评论 -
Hive面试题
1. 什么是HiveHive:由 Facebook 开源用于解决海量结构化日志的数据统计。Hive 是基于 Hadoop 的一个数据仓库工具,可以将结构化的数据文件映射为一张表,并提供类 SQL 查询功能。本质是:将 HQL 转化成 MapReduce 程序1)Hive 处理的数据存储在 HDFS2)Hive 分析数据底层的默认实现是 MapReduce3)执行程序运行在 Yarn 上2. Hive的架构原理(☆)1.用户接口:ClientCLI(hive shell)、JDBC/OD原创 2021-02-11 12:54:51 · 417 阅读 · 0 评论 -
HBase面试题
1. HBase数据模型(☆)1)Name Space命名空间,类似于关系型数据库的 DatabBase 概念,每个命名空间下有多个表。HBase 有两个自带的命名空间,分别是 hbase 和 default,hbase 中存放的是 HBase内置的表,default 表是用户默认使用的命名空间。2)Region类似于关系型数据库的表概念。不同的是,HBase 定义表时只需要声明列族即可,不需要声明具体的列。这意味着,往 HBase写入数据时,字段可以动态、按需指定。因此,和关系型数据库相比,HBa原创 2021-02-11 12:49:48 · 260 阅读 · 0 评论 -
hadoop面试题
1. 集群的最主要瓶颈磁盘IO2. Hadoop运行模式包括单机模式、伪分布式模式、完全分布式模式。单机模式(standalone)单机模式是Hadoop的默认模式。这种模式在一台单机上运行,没有分布式文件系统,而是直接读写本地操作系统的文件系统。当首次解压Hadoop的源码包时,Hadoop无法了解硬件安装环境,便保守地选择了最小配置。在这种默认模式下所有3个XML文件均为空。当配置文件为空时,Hadoop会完全运行在本地。因为不需要与其他节点交互,单机模式就不使用HDFS,也不加载任何Hado原创 2021-02-11 12:44:03 · 1009 阅读 · 0 评论 -
flume面试题
1. 你是如何实现 Flume 数据传输的监控的使用第三方框架 Ganglia 实时监控 Flume。2. Flume 的 Source,Sink,Channel 的作用?你们 Source 是什么类型?1. 作用(1)Source 组件是专门用来收集数据的,可以处理各种类型、各种格式的日志数据,包括avro、thrift、exec、jms、spooling directory、netcat、sequence generator、syslog、http、legacy(2)Channel 组件对采集原创 2021-02-11 12:38:04 · 405 阅读 · 3 评论