大数据面试大保健
Knight_AL
这个作者很懒,什么都没留下…
展开
-
Hadoop高频面试题
Hadoop 相关总结Hadoop 常用端口号Hadoop 配置文件以及简单的 Hadoop 集群搭建HDFS 读流程和写流程MapReduce 的 Shuffle 过程及 Hadoop 优化(包括:压缩、小文件、集群优化)Shuffle 机制Hadoop 优化压缩切片机制Yarn 的 Job 提交流程Yarn 的默认调度器、调度器分类、以及他们之间的区别项目经验之 LZO 压缩Hadoop 参数调优项目经验之基准测试Hadoop 宕机Hadoop 解决数据倾斜方法Hadoop 常用端口号➢ dfs.n原创 2020-07-24 15:56:38 · 269 阅读 · 0 评论 -
数仓分层总结
数仓分层:ODS层(1)保持教据原貌不做任何修改,备份(2)创建分区表,防止后续的全表扫描(3)采用Lzo压缩,并创建索引(切片)(4)创建外部表(多人共用)`内部表(自己使用的临时表)DWD层(1)数仓维度建模(星型模型)=》维度退化商品表+品类表+SPU表+三级分类+二级分类+一级分类=》商品表省份+地区表=》地区表―活动表+活动规则表=》活动表好处:减少后续大量JOIN操作。(2)数据清洗(ETL)专门的岗位,hive sql 、MR、Python、Kettle、SparksQL原创 2020-07-28 22:49:34 · 602 阅读 · 0 评论 -
大数据设计方案V1.0
目录一.系统数据流程设计集群流程图集群框架图集群特点二.具体版本选型一.系统数据流程设计集群流程图集群框架图集群特点(1)多数据源对接能力(2)离线批量/在线实时处理 (3)统一的集群管理配置监控平台(4)实现用户认证和权限管理,满足多租户需求二.具体版本选型...原创 2020-10-03 14:37:46 · 1714 阅读 · 0 评论 -
电商数仓---(脚本模板+写的SQL规律+Sqoop导表模板)
目录SQL模板写SQL的规律导表模板SQL模板#!/bin/bash#!2.定义变量#!3.获取时间#!4.sql#!5.执行sql声明gmall是数据库名看见时间加 $do_date 看见表名加${APP}例子#!/bin/bash#!2.定义变量APP=gmallhive=/export/servers/hive/bin/hive#!3.获取时间if [ -n "$1" ] ;thendo_date=$1elsedo_date=`date -d "-原创 2020-07-29 20:39:30 · 470 阅读 · 0 评论 -
Druid/Impala/Presto/Spark SQL/Kylin/Elasticsearch功能对比
DruidDruid:是一个实时处理时序数据的OLAP数据库,因为它的索引首先按照时间分片,查询的时候也是按照时间―去路由索引。Kylinkylin:核心是Cube,Cube是一种预计算技术,基本思路是预先对数据作多维索引,查询时只扫描索引而不访问原始数据从而提速。PrestoPresto:它没有使用MapReduce,大部分场景下比Hive快一个数量级,其中的关键是所有的处理都在内存中完成。lmpalalmpala:基于内存运算,速度快,支持的数据源没有Presto多。Spark SQL.原创 2020-08-07 22:16:14 · 1521 阅读 · 0 评论 -
大数据面试大保健(8) | 项目架构
文章目录质疑项目数据仓库的输入数据源和输出系统分别是什么?服务器选型集群规模三年的数据都会保存吗?用户行为数据中,哪张表的数量最多,是多少?业务数据中,哪张表的数据最多,是多少?大数据设计方案(重点)质疑项目云上数据仓库解决方案:https://www.aliyun.com/solution/datavexpo/datawarehouse实时数仓架构数据仓库的输入数据源和输出系统分别是什么? 输入:用户行为数据,业务数据,爬虫(灰色地带) 输出:报表系统 (用户画像,推荐系统-如果不是98原创 2020-10-02 22:31:22 · 614 阅读 · 0 评论 -
大数据面试大保健(7) | Sqoop相关总结
遇到过哪些问题?怎么解决的1.空值问题hive mysql\N null导出数据时采用--input-null-string和--input-null-non-string两个参数。导入数据时采用--null-string和--null-non-string。2.数据一致性问题hive =》 mysql导出 4个map 2个成功,2个失败 gmv 1亿 跟老板说1万 跳楼 1万 ..原创 2020-10-01 20:00:05 · 301 阅读 · 0 评论 -
大数据面试大保健(6) | Hive相关总结
Hive的架构mr引擎:基于磁盘,计算时间比较长,但是能算出结果生产环境(周指标,月指标,年指标)tez引擎:基于内存,计算速度快,如果宕机,数据直接丢掉生产环境(临时调试,容易oom)spark引擎:基于内存和磁盘生产环境(每天的定时任务) hive与mysql的区别 hive mysql数据量大小 大 小速度 数据量大/快 ..原创 2020-09-30 16:54:40 · 264 阅读 · 0 评论 -
大数据面试大保健(5) | Kafka相关总结
目录基本信息挂了数据丢失重复数据数据积压优化其他基本信息1.组成producer brokers consumer zookeeper2.需要安装多少台2 * (生产者峰值生产速率 * 副本 / 100) + 1 = 3台3.副本多少副本2-3个,2个居多副本的优势:提高可靠性副本劣势:增加了网络IO传输4.生产者峰值生产速率 ? 压测 百兆/s 消费速率 百兆/s5.监控器用的什么?KafkaManager、KafkaMonitor、KafkaEagle原创 2020-09-29 12:30:33 · 356 阅读 · 0 评论 -
大数据面试大保健(4) | flume相关总结
flume三件事 1.组成source channel sink 事务(put/take)taildir source(1)断点续传,支持多目录(2)哪个flume版本产生的? Apache1.7 cdh1.6(3)没有断点续传功能是什么做的? 自定义(4)taildir挂了怎么办? 不会丢数据:断点续传 重复数据(5)怎么处理重复数据 不处理:生产环境下不处理 处理 在taildirsource里面增加自定义事物 找兄弟:下一级处理(hive dwd sparkst原创 2020-09-28 19:52:13 · 273 阅读 · 0 评论 -
大数据面试大保健(3) | zookeeper相关总结
1.半数机制安装奇数台 2.常用命令ls get create 3.paxos算法一般去面试今日头条才会问 4.安装台数10台服务器安装多少zk 3台20台服务器安装多少zk 5台50台服务器安装多少zk 7台100台服务器安装多少zk 11台Zookeeper越多越好还是越少越好台数多:好处:提高可靠性坏处:影响通信延时...原创 2020-09-28 13:51:32 · 221 阅读 · 0 评论 -
大数据面试大保健(2) | hadoop相关总结
文章目录入门HDFSMapReduceYARNhadoop参数调优入门 1.常用端口号50070,8088,19888,9000dfs.namenode.http-address:50070dfs.datanode.http-address:50075SecondaryNameNode辅助名称节点端口号:50090dfs.datanode.address:50010fs.defaultFS:8020 或者9000yarn.resourcemanager.webapp.address:8原创 2020-09-27 13:48:22 · 422 阅读 · 0 评论 -
大数据面试大保健(1) | liunx&shell
一.Linux 1.常用高级命令列出5个 ps -ef 查找进程 top 查看内存 df -h 查看磁盘存储情况 iotop 查看磁盘IO读写(yum install iotop安装) uptime 查看报告系统运行时长及平均负载 iotop -o 直接查看比较高的磁盘读写程序 nestat -tunlp | grep 端口号 查看端口占用情况 ps aux 查看进程二.Shell 1.常用工具 (只需要知道原创 2020-09-26 17:14:27 · 422 阅读 · 1 评论