qiyong7578
码龄9年
关注
提问 私信
  • 博客:9,539
    9,539
    总访问量
  • 24
    原创
  • 1,691,910
    排名
  • 34
    粉丝
  • 0
    铁粉

个人简介:从头再来

IP属地以运营商信息为准,境内显示到省(区、市),境外显示到国家(地区)
IP 属地:广东省
  • 加入CSDN时间: 2016-04-14
博客简介:

qiyong7578的博客

查看详细资料
个人成就
  • 获得3次点赞
  • 内容获得0次评论
  • 获得18次收藏
创作历程
  • 3篇
    2021年
  • 23篇
    2020年
  • 1篇
    2019年
成就勋章
TA的专栏
  • 面经
    5篇
  • flink
    1篇
  • scala
    2篇
  • 工作常用
    1篇
  • hive
    4篇
  • 笔记
    1篇
  • ss
    1篇
  • hadoop
    4篇
  • kafka
    1篇
  • SparkSQL
  • hbase
  • SparkCore
    1篇
  • mysql
    2篇
  • linux
    1篇
  • vmware fusion
兴趣领域 设置
  • 大数据
    hadoophivestormsparketl
创作活动更多

超级创作者激励计划

万元现金补贴,高额收益分成,专属VIP内容创作者流量扶持,等你加入!

去参加
  • 最近
  • 文章
  • 代码仓
  • 资源
  • 问答
  • 帖子
  • 视频
  • 课程
  • 关注/订阅/互动
  • 收藏
搜TA的内容
搜索 取消

20210223——某厂大数据开发面经

1、SparkSQL有几种join?2、Hive你怎么做的优化?3、你确定你这么做真的能保证exactly-once?4、Hive字段类型不同,会发生什么事?5、Hive的执行计划看过吗?里面都有什么内容?你怎么看的6、SS的实时是怎么和离线关联起来的?api吗?任务每天重启?...
原创
发布博客 2021.02.23 ·
211 阅读 ·
1 点赞 ·
0 评论 ·
0 收藏

平安产险-大数据开发面经

1、hive接触过哪些文件存储类型,text的优劣、列式存储的好处、SequeceFile的好处、RCFile有没有用过2、对mr的理解3、内部表和外部表的区别,对应的应用场景4、map join和reduce join的区别5、写过最复杂的sql,场景是什么,工作中什么样的sql写的比较多6、hive的数据倾斜,怎么解决*7、宽依赖和窄依赖的理解*shuffle、stage,发生shuffle就会划分stage,产生宽依赖8、日志数据、交易数据的数据量9、数仓的理解,我从分层角度回答、
原创
发布博客 2021.01.12 ·
812 阅读 ·
0 点赞 ·
0 评论 ·
12 收藏

2021-01-12

Scala学习笔记1.5 scala类都有一个伴生对象,和java中的静态方法一样BigInt.probablePrime(100, scala.util.Random)
原创
发布博客 2021.01.12 ·
139 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

Hive经典面试题

环比:比上月同期sales表month id sales202007 1 800202004 1 900202005 1 700202006 1 900202008 1 1000202009 1 1100202007 2 800202004 2 900202005 2 700202006 2 900202008 2 600202009 2 1100select distinct idfrom (se
原创
发布博客 2020.12.03 ·
341 阅读 ·
1 点赞 ·
0 评论 ·
1 收藏

面经

1 Hive客户端怎么连接hive的,几种方式的区别2 Hive的元数据管理方式,区别3 Sparksql怎么合并小文件,设置分区数一定输出这么多个文件吗?4 Hive常用的调优参数5 Spark常用的调优参数6 spark的executor的内存结构是怎样的7 spark的广播变量是怎么复制分发的?8 常用的gc算法,以及怎么查看jvm状态9 jdk1.8的默认gc算法是什么10 wc的mr流程,尽可能的细11 clickhouse底层结构是怎样的,怎么高可用的?...
原创
发布博客 2020.12.02 ·
93 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

面试准备

1. 熟悉python开发语言,熟悉hive/hadoop等分布式计算技术,熟悉其运行机制和体系结构,有MR作业编写经验优化。hadoop复习hadoop项目复习hive sql编译过程复习参考美团https://tech.meituan.com/2014/02/12/hive-sql-to-mapreduce.htmlMR项目复习2. 灵活运用SQL实现海量数据ETL加工处理 ,有较好的SQL性能调优经验;Hivesql复习(窗口函数、分析函数)hive性能优化3. 思路清晰,对数据敏
原创
发布博客 2020.11.22 ·
106 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

Shuffle过程排序

MapTask和ReduceTask都会默认对数据按照key进行排序,不管逻辑上是否需要。默认是按照字典顺序排序,且实现该排序的方法是快速排序。但是map和reduce任务只能保证单个任务内部输出有序,不能保证所有输出全局有序。MapTask,当环形缓冲区使用率到达一定阈值后进行一次快速排序,将这些有序数据溢写到磁盘上,而当数据处理完毕后,它会对磁盘上所有文件进行归并排序。ReduceTask,它从每个MapTask上远程拷贝相应的数据文件,如果文件大小超过一定阈值,则溢写到磁盘上,否则存储在内存中。如果
转载
发布博客 2020.11.20 ·
788 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

20201111编程猫面经

数仓工程师1、描述一下hive报表开发的业务场景,有没有碰到复杂的口径。2、抽取数据用什么工具3、简单介绍开发的报表(包括维度表、事实表)的核心指标4、sql题a.有个表,两个字段month price1 1002 2003 300一个sql实现按月累加sum(price) over(order by month asc)5、场景题有两个100G的文件,每个文件各自有一个字段,机器只有2G2核,怎么不发生OOM的情况,进行key的匹配
原创
发布博客 2020.11.11 ·
710 阅读 ·
0 点赞 ·
0 评论 ·
1 收藏

面试题—Kafka为什么这么快/这么能存?(自己整理的)

为什么读写这么快Kafka的快是从底层设计、到充分利用硬件、系统、压缩等特性,综合产生的结果。从以下几个方面解释:1、磁盘读写原理2、利用Pagecache+mmap3、零拷贝4、存储设计5、批量读写6、批量压缩7、消息写入过程8、消息读取过程1、磁盘读写原理一次访盘请求(读/写)完成过程由三个动作组成:1、寻道时间:磁头移动到指定磁道2、旋转时间:等待指定扇区从磁头下旋转而过3、数据传输时间:数据在磁盘、内存与网络之间到实际传输Kafka根据数据的局部性原理,有以下两种方法
原创
发布博客 2020.10.31 ·
200 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

面试题-Flink

Flink预备011、Savepoints&Checkpoints
原创
发布博客 2020.10.15 ·
95 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

工作中常用&常见问题

工作中常用Scala1、判断数据类型,类型转换10.isInstanceOf[Int]10.asInstanceOf[Double]
原创
发布博客 2020.10.15 ·
301 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

面试题-SparkStreamming

SS011、对接kafka、offset管理2、调优3、exactly-once:保证数据植被处理一次ootb:开箱即用4、standalone:主从有主节点的,就得做高可用但是on yarn就不用5、ss里对接socket数据源,缓存策略是什么 socketTextStream类memory_and_disk_ser_26、...
原创
发布博客 2020.10.15 ·
277 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

面试题——Hbase

Hbase011、hive哪些任务在执行时会触发mr的job?2、什么样的场景下hbase有百万列?有点扯的其实。一般都是一千列、十万列但是答要提到,动态列不用提前建好表结构3、基于谷歌的哪篇论文big table4、谓词下推:其实就是where条件5、请你说一下大数据组建的动物6、经典的版本 0.987、如果没有部署一个zk,hbase启动时会自己起一个zk来维护8、hbase和zk的关系关键:生产上一定要调 zookeeper.session.timeout海量写的时候,hba
原创
发布博客 2020.10.14 ·
136 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

面试题-Spark

Spark01Spark021、glom算子的作用把每个分区的元素都放到一个数组里面去scala> sc.parallelize(1 to 10, 4).glom().collect()res0: Array[Array[Int]] = Array(Array(1, 2), Array(3, 4, 5), Array(6, 7), Array(8, 9, 10))2、join 用RDD实现3、left.cogroup(right).collectjoin底层的实现是用的cogroup
原创
发布博客 2020.10.07 ·
165 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

面试题-SparkSQL

SparkSQL011、sparksql和sparkcore cache策略的区别绿在:InMemoryTableScansparksql cache 是eagle的,sparkcore是lazy的sparksql uncache是eagle的,sparkcore是eagle的语法 cache table tablenameuncache table tablenamespark.table("tablename").cache 是lazy的val df = spark.sql("sele
原创
发布博客 2020.10.07 ·
1103 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

面试题-Scala

scala011、数据类型Byte的数据范围:-128-127Char:单引号扩起来val c1:Char = ‘a’c1.toInt // 972、在scala中,如何退出循环**导入scala.util.control.Breaks.{break,breakable},breakable{处理逻辑break}scala021、函数和方法的区别2、默认值val name:String= _ nullval age:Int= _ 0val money:Double
原创
发布博客 2020.10.01 ·
190 阅读 ·
0 点赞 ·
0 评论 ·
1 收藏

面试题整理

面试题整理Java1、jvm的作用(4个)zookeeperzookeeper实现分布式锁
原创
发布博客 2020.10.01 ·
161 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

Hive的四种连接模式

hive的元数据1、为什么需要开启hive的metastore service因为有像spark这样需要用到hive元数据的框架存在!所以就要给它们开放服务!2、metaStore:metaStore,默认存储在 derby 数据库中,但是derby数据库不能支持我们开启多个窗口,所以我们会将metaStore存放到MySql中;metaStore存储了hive的databases,tables,partition等信息.hiveQL所有的语句都会连接到MySql查询元数据信息!3、metaS
原创
发布博客 2020.06.27 ·
997 阅读 ·
0 点赞 ·
0 评论 ·
1 收藏

Beeline HiveServer2 MetaStore

HiveServer2 MetaStore两个进程提供对外服务Beeline用于自测
原创
发布博客 2020.06.20 ·
430 阅读 ·
0 点赞 ·
0 评论 ·
2 收藏

MySQL安装过程碰到的问题

前提:首先已在新通过新建的用户mysqladmin(可以是其他任意用户)成功部署mysql,并且能够正常登陆。一、切换到root或者hadoop等其他用户时,登陆报错:bash: mysql: command not found原因:因为我使用linux用户mysqladmin(自建用户)部署mysql时,只配置了局部环境变量文件 /.bashrc解决方案:配置全局环境变量 /etc/profile,在末尾加上以下内容export MYSQL_BASE=/usr/local/mysqlexpo
原创
发布博客 2020.06.20 ·
298 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏
加载更多