北京小辉
余辉,硕士毕业于中科院,从事IT行业12年。专注于大数据、云数据、用户画像、推荐算法。在数据团队担任过的角色:研发、架构师、负责人、讲师。数据知识产权:出版大数据书籍【1】本,论文【2】篇,软著【6】篇,专利【65】篇。
展开
-
大数据面试宝典目录--【每天】不断更新中请期待
JAVA面试题目录mysql分组取topN的三种方式大顶堆和小顶堆–Java版二分查找–Java版大数据面试题目录原创 2019-12-28 09:43:26 · 3539 阅读 · 8 评论 -
数据仓库——如何量化评价一个数据仓库的好坏?
数据仓库——如何量化评价一个数据仓库的好坏转载 2023-01-29 11:05:37 · 739 阅读 · 0 评论 -
数据倾斜——hdfs存储数据倾斜
数据倾斜——hdfs存储数据倾斜转载 2023-01-28 10:07:38 · 563 阅读 · 0 评论 -
JVM虚拟机
1.垃圾回收算法分类算法一:引用计数法。 这个方法是最经典点的一种方法。具体是对于对象设置一个引用计数器,每增加一个变 量对它的引用,引用计数器就会加 1,没减少一个变量的引用,引用计数器就会减 1,只有当对象的引用计数器变成 0 时,该对象才会被回收。可见这个算法很简单,但是简单往往会存在很多问题,这里我列举最明显的两个问题。 一是采用这种方法后,每次在增加变量引用和减少引用时都要进行加法或减法操原创 2020-08-07 19:35:01 · 404 阅读 · 0 评论 -
大数据优化方案----Spark数据倾斜
1. 什么是数据倾斜 数据倾斜是一种很常见的问题(依据二八定律),简单来说,比方WordCount中某个Key对应的数据量非常大的话,就会产生数据倾斜,导致两个后果:1)OOM(单或少数的节点);2)拖慢整个Job执行时间(其他已经完成的节点都在等这个还在做的节点)。2. 解决数据倾斜需要1)搞定 Shuffle;2)搞定业务场景;3)搞定 CPU core 的使用情况;(这里的core是虚拟的core而不是机器的物理CPU核,可以理解为就是转载 2020-08-07 11:27:45 · 587 阅读 · 0 评论 -
大数据优化方案----Spark案例优化(二)
转自:http://blog.csdn.net/ljj657137723/article/details/52134962 本篇文章是关于我在学习Spark过程中遇到的一些问题及总结,分为Spark优化、RDD join问题、遇到的问题、总结、参考资料几个部分。 一:Spark优化 1、设置序列化器为KryoSerializer Spark默认使用的是Java序列化机制,但原创 2016-08-07 12:40:01 · 2172 阅读 · 1 评论 -
大数据面试题(一)----HADOOP 面试题
目录一、Hadoop 基础二、HDFS基础一、Hadoop 基础下列哪项通常是集群的最主要瓶颈(C)A. CPUB. 网络C. 磁盘IOD. 内存下列哪项可以作为集群的管理工具?(C)A.PuppetB.PdshC.ClouderaManagerD.Zookeeper下列哪个是Hadoop 运行的模式?(ABC)A. 单机版B. 伪分布式C. 完全...原创 2020-01-06 15:13:47 · 6224 阅读 · 3 评论 -
大数据面试题(二)----HDFS面试题
HDFS基础HDFS 中的block 默认保存几份?(A)A.3 份B.2 份C.1 份D.不确定HDFS 默认BlockSize 是(C)A. 2MBB. 4MB(2.7.2 版本,本地模式)C. 8MB(2.7.2 版本,分布式模式)Client 端上传文件的时候下列哪项正确?(BC)A. 数据经过NameNode 传递DataNodeB. Client 端...原创 2020-01-06 19:15:42 · 6492 阅读 · 3 评论 -
大数据面试题(三)----MapReduce面试题
谈谈Hadoop 序列化和反序列化及自定义bean 对象实现序列化?1) 序列化和反序列化序列化就是把内存中的对象,转换成字节序列(或其他数据传输协议)以便于存储(持久化)和网络传输。反序列化就是将收到字节序列(或其他数据传输协议)或者是硬盘的持久化数据,转换成内存中的对象。Java 的序列化是一个重量级序列化框架(Serializable),一个对象被序列化后,会附带很多额外的...原创 2020-01-06 19:12:43 · 2020 阅读 · 4 评论 -
大数据面试题(四)----YARN面试题
简述hadoop1 与hadoop2 的架构异同加入了yarn 解决了资源调度的问题。加入了对zookeeper 的支持实现比较可靠的高可用。为什么会产生yarn,它解决了什么问题,有什么优势?Yarn 最主要的功能就是解决运行的用户程序与yarn 框架完全解耦。Yarn 上可以运行各种类型的分布式运算程序(mapreduce 只是其中的一种),比如mapreduce、stor...原创 2020-01-06 19:32:03 · 1263 阅读 · 2 评论 -
大数据面试题(五)----HIVE面试题
HIVE面试题Hive 表关联查询,如何解决数据倾斜的问题?(☆☆☆☆☆)1) 倾斜原因: map 输出数据按key Hash 的分配到reduce 中,由于key 分布不均匀、业务数据本身的特、建表时考虑不周、等原因造成的reduce 上的数据量差异过大。(1) key 分布不均匀;(2) 业务数据本身的特性;(3) 建表时考虑...原创 2020-01-06 20:54:09 · 2226 阅读 · 0 评论 -
大数据面试题(五)----HIVE的调优及数据倾斜
一、 hive表的优化1)小表、大表 Join 将 key 相对分散,并且数据量小的表放在 join 的左边,这样可以有效减少内存溢出错误发生的几率;再进一步,可以使用 Group 让小的维度表(1000 条以下的记录条数)先进内存。在 map 端完成 reduce。实际测试发现:新版的 hive 已经对小表 JOIN 大表和大表 JOIN 小表进行了优化。小表放在左边和右边已经没有明显区别。案例实操 &n原创 2020-08-07 10:32:16 · 673 阅读 · 0 评论 -
大数据面试题(六)----HBASE 面试题
目录1. HBase 的特点是什么?2. HBase 和Hive 的区别?3. 描述HBase 的rowKey 的设计原则?4. 描述HBase 中scan 和get 的功能以及实现的异同?1. HBase 的特点是什么?1) 大:一个表可以有数十亿行,上百万列;2) 无模式:每行都有一个可排序的主键和任意多的列,列可以根据需要动态的增加,同一张表中不同的行可以有截然不同的列;...原创 2020-01-06 21:16:54 · 1774 阅读 · 1 评论 -
大数据面试题(七)----Flume面试题
目录1. Flume 使用场景(☆☆☆☆☆)2. Flume 丢包问题(☆☆☆☆☆)3. Flume 与Kafka 的选取1. Flume 使用场景(☆☆☆☆☆)线上数据一般主要是落地(存储到磁盘)或者通过socket 传输给另外一个系统,这种情况下,你很难推动线上应用或服务去修改接口,实现直接向kafka 里写数据,这时候你可能就需要flume 这样的系统帮你去做传输。2. Fl...原创 2020-01-06 21:24:03 · 1066 阅读 · 1 评论 -
大数据面试题(八)----Kafka面试题
目录1.请说明什么是Apache Kafka?2.请说明什么是传统的消息传递方法?3.请说明Kafka 相对于传统的消息传递方法有什么优势?1.请说明什么是Apache Kafka? Apache Kafka 是由Apache 开发的一种发布订阅消息系统,它是一个分布式的、分区的和重复的日志服务。2.请说明什么是传统的消息传递方法...原创 2020-01-06 21:29:47 · 967 阅读 · 1 评论 -
大数据面试题(九)----Spark面试题
目录1. Spark master 使用zookeeper 进行HA 的,有哪些元数据保存在Zookeeper?2. Spark master HA 主从切换过程不会影响集群已有的作业运行,为什么?3. Spark on Mesos 中,什么是的粗粒度分配,什么是细粒度分配, 各自的优点和缺点是什么?1. Spark master 使用zookeeper 进行HA 的,有哪些元数据保存...原创 2020-01-06 21:33:36 · 1601 阅读 · 1 评论 -
大数据面试题(十)----Zookeeper 面试题
“无意中发现了一个巨牛的人工智能教程,忍不住分享一下给大家。教程不仅是零基础,通俗易懂,而且非常风趣幽默,像看小说一样!觉得太牛了,所以分享给大家。点这里可以跳转到教程。”。 大数据面试宝典目录,请点击目录1. 请简述ZooKeeper 的选举机制2. 客户端对ZooKeeper 的ServerList 的轮询机制3. 客户端如何正确处理CONNECTIONLOSS( 连接断开) 和SE...原创 2020-01-10 18:38:12 · 3648 阅读 · 1 评论 -
大数据优化方案----企业案例分析
海量日志数据,提取出某日访问百度次数最多的那个IP。 首先是这一天,并且是访问百度的日志中的IP 取出来,逐个写入到一个大文件中。注意到IP 是32 位的,最多有个2^32 个IP。同样可以采用映射的方法,比如模1000,把整个大文件映射为1000个小文件,再找出每个小文中出现频率最大的IP(可以采用hash_map 进行频率统计,然后再找...原创 2020-01-06 20:06:10 · 828 阅读 · 1 评论 -
大数据优化方案----Spark案例优化(一)
一、需求 通过分析用户浏览新闻热门话题的日志,统计每个话题下被浏览量最多的用户topN,即按照话题分组,在每一个组内进行排序二、样例数据数据格式:话题,时间,被浏览的用户id#高以翔去世#,2019-11-29,u011#高以翔去世#,2019-11-29,u011#高以翔去世#,2019-11-29,u011#高以翔去世#,20...原创 2019-12-30 22:21:51 · 728 阅读 · 1 评论 -
大数据优化方案----MapReduce优化方法
MapReduce跑的慢的原因(☆☆☆☆☆)一、Mapreduce 程序效率的瓶颈在于两点:1) 计算机性能CPU、内存、磁盘健康、网络2) I/O 操作优化(1) 数据倾斜(2) map 和reduce 数设置不合理(3) reduce 等待过久(4) 小文件过多(5) 大量的不可分块的超大文件(6) spill 次数过多(7) merge 次数过多等。二、MapRedu...原创 2020-01-06 19:48:09 · 1095 阅读 · 1 评论 -
大数据优化方案----HDFS小文件优化方法
HDFS 小文件优化方法(☆☆☆☆☆)1) HDFS 小文件弊端: HDFS 上每个文件都要在namenode 上建立一个索引,这个索引的大小约为150byte,这样当小文件比较多的时候,就会产生很多的索引文件,一方面会大量占用namenode 的内存空间,另一方面就是索引文件过大是的索引速度变慢。2) 解决的方式:(1)Hadoop 本...原创 2020-01-06 19:37:48 · 1509 阅读 · 2 评论 -
大数据优化方案---Mysql中47G大表通过SQOOP导入数据仓库
目录一、需求二、思路三、解决方案一、需求1、由于公司的Mysql表中有很多单表存储量有几亿,单表达到40多个G2、二、思路三、解决步骤原创 2020-05-10 18:34:53 · 1589 阅读 · 2 评论 -
数据挖掘考试题库
目录一、名词解释二、综合题一、名词解释数据仓库:是一种新的数据处理体系结构,是面向主题的、集成的、不可更新的(稳定性)、随时间不断变化(不同时间)的数据集合,为企业决策支持系统提供所需的集成信息。孤立点:指数据库中包含的一些与数据的一般行为或模型不一致的异常数据。OLAP:OLAP是在OLTP的基础上发展起来的,以数据仓库为基础的数据分析处理,是共享多维信息的快速分析,是被专门设计用于支持复杂的分析操作,侧重对分析人员和高层管理人员的决策支持。粒度:指数据仓库的数据单位中保存数据细化或综合原创 2020-07-20 10:28:36 · 2340 阅读 · 0 评论