Mr Fmy
码龄6年
关注
提问 私信
  • 博客:45,596
    45,596
    总访问量
  • 90
    原创
  • 2,056,000
    排名
  • 16
    粉丝
  • 0
    铁粉
IP属地以运营商信息为准,境内显示到省(区、市),境外显示到国家(地区)
IP 属地:广东省
  • 加入CSDN时间: 2018-08-07
博客简介:

weixin_42908473的博客

查看详细资料
个人成就
  • 获得29次点赞
  • 内容获得14次评论
  • 获得123次收藏
创作历程
  • 21篇
    2021年
  • 50篇
    2020年
  • 22篇
    2019年
成就勋章
TA的专栏
  • 大数据
    10篇
  • 电商离线数仓
    2篇
  • scala
    1篇
兴趣领域 设置
  • 人工智能
    nlp
创作活动更多

超级创作者激励计划

万元现金补贴,高额收益分成,专属VIP内容创作者流量扶持,等你加入!

去参加
  • 最近
  • 文章
  • 代码仓
  • 资源
  • 问答
  • 帖子
  • 视频
  • 课程
  • 关注/订阅/互动
  • 收藏
搜TA的内容
搜索 取消

hive sql性能优化

1.join(1)建中间表(大表重复使用,逻辑重复使用,关联多逻辑复杂)(2)建子查询(减少数据量,减少大表关联)2.on(1)null值处理(2)关联字段唯一(3)数据倾斜过滤倾斜key(关于驱动表的取,用join key分布最均匀的表作为驱动表做好列裁剪和filter操作,以达到两表做join的时候,数据量相对变小的效果)BroadCastJoin(即map join)(使用map join让小的维度表(1000条以下的记录条数) 先进内存。在map端完成reduce)分层汇总拆
原创
发布博客 2021.10.15 ·
366 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

hbase问题总结(校招)

1.hbase的底层1)StoreFile保存实际数据的物理文件,StoreFile以HFile的形式存储在HDFS上。每个Store会有一个或多个StoreFile(HFile),数据在每个StoreFile都是有序的。2)MemStore写缓存,由于HFile中的数据要求是有序的,所以数据是先存储在MemStore中,排好序后,等到达刷写时机时才会刷写到HFile,每次刷写都会形成一个新的HFile。3)WAL由于数据要经MemStore排序后才会刷写到HFile,但把数据保存在内存中会有.
原创
发布博客 2021.03.08 ·
330 阅读 ·
0 点赞 ·
1 评论 ·
0 收藏

flink提交流程源码分析

大厂注重对底层源码的理解:hadoop,spark,flinkflink提交流程:(1)以yarn-per-job模式提交流程为例,bin/flink run -t yarn-per-job -c com.xxx.xxx.WordCount ./WordCount.jar(2)1.1脚本启动执行1.2解析参数CliFrantendParser1.3使用FlinkYarnSessionCli1.4执行用户代码1.5生成StreamGraph流图1.6生成JobGraph1.7上传jar包和
原创
发布博客 2021.03.07 ·
391 阅读 ·
0 点赞 ·
1 评论 ·
0 收藏

hive什么情况下容易数据倾斜?如何解决?

倾斜原因:map输出数据按key hash分配到reducer中,由于key分布不均匀、业务数据本身的特点、建表时考虑不周等原因造成reduce上的数据量差异过大。解决方法:1.对于key为空产生的数据倾斜可以对其赋予一个随机值。2.参数调节:设置数据倾斜时进行负载均衡。3.大小表join时,使用mapjoin让小的维度(1000条以下的条数)先进内存。在map端完成reduce。4大表join大表时,把空值的key变成一个字符串加随机数,把倾斜的数据分到不同的reducer上。5.把数据类型
原创
发布博客 2021.03.07 ·
361 阅读 ·
0 点赞 ·
0 评论 ·
3 收藏

浩鲸科技笔试题

1.sql题设某公司数据库中有关系模式如下: 职工(职工号,职工名,性别,年龄) 工作(职工号,公司号,工资) 公司(公司号,公司名,地址)请创建表并写出查询每个公司女职工的平均工资的SQL语句。在hive中,什么情况下容易出现数据倾斜?如何解决?出现倾斜:(1)不同数据类型关联产生数据倾斜;解决方式:把类型转换为相同的类型(2)大量空值数据进入到一个reduce中,导致数据倾斜。解决方法:将为空的key转变为字符串加随机数或者纯随机数。异常值如果不需要,最后提前在wh
原创
发布博客 2021.03.07 ·
3651 阅读 ·
10 点赞 ·
1 评论 ·
33 收藏

算法经典简单练习题leetcode动手实践(长期练习)

1.找出数组最小的k个数class Solution {public int[] smallestK(int[] arr, int k) {int[] vec = new int[k];Arrays.sort(arr);for (int i = 0; i < k; ++i) {vec[i] = arr[i];}return vec;}}这里可以用Arrays.sort()对数组进行排序2.两数之和(有视频讲解)暴力class Solution {public int[]
原创
发布博客 2021.02.28 ·
178 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

hadoop、hive优化、hive数据倾斜面试必备

hadoop优化分mr,yarn1.yarn小文件处理:har归档,CombineTextInputFormat:切片角度,把很多小文件当成一个切片,jvm归档2mr1.Map阶段(1)增大环形缓冲区的大小。由100m扩大到200m(2)增大环形缓冲区的溢写比例。有80%扩大到90%(3)减少对溢写文件的merge次数.(10个文件,一次20个merge)(4)不影响实际业务的前提下,采用Combiner提前合并,减少IO2.3)Reduce阶段(1)合理设置Map和Reduce
原创
发布博客 2021.02.25 ·
177 阅读 ·
0 点赞 ·
0 评论 ·
1 收藏

org.apache.hadoop.hive.ql.exec.spark.SparkTask. Failed to create Spark client for Spark session 0354

1、Spark没有正常启动2、Spark和Hive版本不匹配3、资源不足,导致Hive连接Spark客户端超过设定时长hadoop的resourcemanage起不来?为什么只要两个节点?我都hive复杂查询解决了。yarn原来没起来,脚本没有修改,应该在hadoop103启动resourcemanager,start-yarn.sh我的问题好像不是最上面的三个问题。...
原创
发布博客 2021.02.02 ·
1251 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

jvm性能调优

目的:较小的内存获得高的吞吐量或者低延迟;jvm问题:cpu load过高,请求延迟,tps降低,内存泄漏;CAP原则:同时内存小,延迟低,高吞吐不可能;调优的依据:系统运行日志,堆栈错误信息,gc日志,线程快照,堆转储快照。堆栈错误信息:outofmemoryerror:java heap space,堆内存溢出,stackoverflowerror栈溢出,outofmemoryerror:PermGen space方法区溢出当老年代内存过小时可能引起频繁Full GC,当内存过大时Full G
原创
发布博客 2021.01.29 ·
137 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

数据库SQL调优

一.创建索引1.避免全表扫表,首先考虑在where及order by涉及的列建立索引2.在经常需要进行检索的字段上创建索引,一个表的索引最后不要超过6个。提高了select的效率,但同时也降低了insert及update的效率。二.避免在索引上使用计算如果索引列是计算或者函数的一部分,DBMS的优化器将不会使用索引而是全表查询。效率低:select * from user where salary*22>11000(salary是索引列)效率高:select * from salar
原创
发布博客 2021.01.29 ·
153 阅读 ·
0 点赞 ·
0 评论 ·
1 收藏

hadoop性能优化(调优)

用户角度:hadoop参数调优:core-site.xml,hdfs-site.xml,mapred-site.xml三个配置文件,根据实际应用场景对参数进行配置,比如io.seqfile.compress.blocksize(块压缩时块的最小块大小),dfs.block.size(每个文件块的大小,默认是64M,对于大型文件可以设置为128M)。常用参数设置:(1).reduce个数设置:A.如果reduce个数设置太小,单个reducetask执行速度很慢,出错重新调试的时间比较多B.如果r
原创
发布博客 2021.01.29 ·
1509 阅读 ·
0 点赞 ·
1 评论 ·
2 收藏

离线数仓整体流程(面试必备)

系统数据流通过程:电商数据来源分为两部分:(1)第一部分在网站做埋点,用户点击产生的日志数据,通过nginx,springboot将数据分发到日志服务器,logfile保存在日志服务器上。(2)第二部分是网站的业务数据,一般保存在mysql数据库。数据传输日志数据通过flume收集,然后保存到kafka,再通过flume传输到hdfs。业务数据直接通过sqoop导入到hdfs。数据处理编写hql以及脚本程序,放在azkaban上作为每日定时任务,将最后结果导入到mysql数据库。数据展示.
原创
发布博客 2021.01.28 ·
2118 阅读 ·
5 点赞 ·
1 评论 ·
42 收藏

离线数仓全面复习(1)

1.集群规模:12台物理集,128G内存,8T机械硬盘,2T固态硬盘,20核40线程,戴尔4万多1台(重要,吹牛)2.
原创
发布博客 2021.01.21 ·
389 阅读 ·
1 点赞 ·
0 评论 ·
4 收藏

Remote Host双击shift

双击两次shift,搜索remote host,输入主机名,用户和密码,连接完成idea集成的工具把jar包上传到集群上那个
原创
发布博客 2021.01.20 ·
105 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

自我介绍

链接:https://www.nowcoder.com/discuss/581786来源:牛客网1、基本信息:姓名+手机号+邮箱地址。这一部分请一定在简历上显著标识出来!HR很忙很忙,需要一眼看见你的联系方式!2、照片方面:如果你的证件照能加分,可以去认真拍一张证件照,否则其实可以不用放。3、学校学历:你的毕业院校+你的学历。这一部分非常重要,有些公司的特定岗位会对学校学历有硬性要求,比如只要985/211,只要研究生等。如果你是本科生,写你本科的院校就好;如果你是研究生,请写上你的研究生毕业院
原创
发布博客 2021.01.20 ·
186 阅读 ·
0 点赞 ·
3 评论 ·
0 收藏

stop-hbase.sh关不掉一直点点点......

1重启zookeeper2到对应的hbase安装目录,执行命令 ./bin/hbase-daemons.sh stop regionserver注意:在启动hadoop的过程中,需要确保三台主机启动之后离开安全模式才能再开启hbase,不然hbase的相关进程hmaster,hregionserver可能有的节点可能起不来,本人试了三次,第一次只有一台起了hreginserver,后面hmaser没起来,又试了一下,数据终于从ods,到dwd,到dws有了数据,一开始以为是代码的问题,不明所以,实时项目
原创
发布博客 2021.01.19 ·
4352 阅读 ·
1 点赞 ·
0 评论 ·
6 收藏

大数据面试准备

1.给你一个场景写sql题2.对java基础的掌握arraylist和hashmap的区别:内部元素:Arraylist储存的是单个对象,HashMap储存的是一组一组的key和value内部结构:ArrayList是有序的,HashMap无序3.算法题:两个有序队列合成一个有序队列 (有没有其他方法)算法题:两个有序队列合成一个有序队列 import java.util.Arrays;class Solution { public static void main(String[
原创
发布博客 2021.01.16 ·
234 阅读 ·
0 点赞 ·
0 评论 ·
1 收藏

clickhouse客户端起不来connection refused

之前有些问题解决了,但是没有进行一个记录总结,导致可能后面出现相同的问题可能还是会花很多时间。我的密码是aaaaaa本人起clickhouse客户端出现了如下问题:1这时候是服务器没有启动,查看服务器启动没有用:ps -ef | grep clickhouse这时候发现没有启动(启动服务器需要查看才能保证真正启动)2.接下来需要去/var/log/查看日志信息,发现在配置/etc/clickhouse-server/config.d/metrika.xml首行出现了空行,于是修改完,重新启动cli
原创
发布博客 2021.01.16 ·
3432 阅读 ·
0 点赞 ·
0 评论 ·
1 收藏

实时

广播变量还是分区为单位流经过分区为什么变成迭代器放维度数据为什么要初始化?这样才能把之前的数据采集过来toJsonString把java对象转化为json格式的字符串parseObject把字符串-》json对象toJavaObject把json对象转化为java对象es(全文检索),hbase,clihouse根据需求(OLAP库)...
原创
发布博客 2021.01.15 ·
104 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

实时问题总结

1.sparkstreaming不仅要从kafka读数据然后根据表的性质写数据到kafka的不同topic中之前没搞清楚了,kafka存储的是ods层的数据2.local[?] ?表示多少个分区,设置为*会导致资源浪费3foreachRDD是行动算子
原创
发布博客 2021.01.12 ·
165 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏
加载更多