自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(13)
  • 收藏
  • 关注

原创 jvm性能调优

目的:较小的内存获得高的吞吐量或者低延迟;jvm问题:cpu load过高,请求延迟,tps降低,内存泄漏;CAP原则:同时内存小,延迟低,高吞吐不可能;调优的依据:系统运行日志,堆栈错误信息,gc日志,线程快照,堆转储快照。堆栈错误信息:outofmemoryerror:java heap space,堆内存溢出,stackoverflowerror栈溢出,outofmemoryerror:PermGen space方法区溢出当老年代内存过小时可能引起频繁Full GC,当内存过大时Full G

2021-01-29 20:32:43 121

原创 数据库SQL调优

一.创建索引1.避免全表扫表,首先考虑在where及order by涉及的列建立索引2.在经常需要进行检索的字段上创建索引,一个表的索引最后不要超过6个。提高了select的效率,但同时也降低了insert及update的效率。二.避免在索引上使用计算如果索引列是计算或者函数的一部分,DBMS的优化器将不会使用索引而是全表查询。效率低:select * from user where salary*22>11000(salary是索引列)效率高:select * from salar

2021-01-29 19:08:56 140

原创 hadoop性能优化(调优)

用户角度:hadoop参数调优:core-site.xml,hdfs-site.xml,mapred-site.xml三个配置文件,根据实际应用场景对参数进行配置,比如io.seqfile.compress.blocksize(块压缩时块的最小块大小),dfs.block.size(每个文件块的大小,默认是64M,对于大型文件可以设置为128M)。常用参数设置:(1).reduce个数设置:A.如果reduce个数设置太小,单个reducetask执行速度很慢,出错重新调试的时间比较多B.如果r

2021-01-29 13:48:04 1455 1

原创 离线数仓整体流程(面试必备)

系统数据流通过程:电商数据来源分为两部分:(1)第一部分在网站做埋点,用户点击产生的日志数据,通过nginx,springboot将数据分发到日志服务器,logfile保存在日志服务器上。(2)第二部分是网站的业务数据,一般保存在mysql数据库。数据传输日志数据通过flume收集,然后保存到kafka,再通过flume传输到hdfs。业务数据直接通过sqoop导入到hdfs。数据处理编写hql以及脚本程序,放在azkaban上作为每日定时任务,将最后结果导入到mysql数据库。数据展示.

2021-01-28 11:35:33 2061 1

原创 离线数仓全面复习(1)

1.集群规模:12台物理集,128G内存,8T机械硬盘,2T固态硬盘,20核40线程,戴尔4万多1台(重要,吹牛)2.

2021-01-21 15:56:13 375

原创 Remote Host双击shift

双击两次shift,搜索remote host,输入主机名,用户和密码,连接完成idea集成的工具把jar包上传到集群上那个

2021-01-20 21:02:09 92

原创 自我介绍

链接:https://www.nowcoder.com/discuss/581786来源:牛客网1、基本信息:姓名+手机号+邮箱地址。这一部分请一定在简历上显著标识出来!HR很忙很忙,需要一眼看见你的联系方式!2、照片方面:如果你的证件照能加分,可以去认真拍一张证件照,否则其实可以不用放。3、学校学历:你的毕业院校+你的学历。这一部分非常重要,有些公司的特定岗位会对学校学历有硬性要求,比如只要985/211,只要研究生等。如果你是本科生,写你本科的院校就好;如果你是研究生,请写上你的研究生毕业院

2021-01-20 17:48:41 174 3

原创 stop-hbase.sh关不掉一直点点点......

1重启zookeeper2到对应的hbase安装目录,执行命令 ./bin/hbase-daemons.sh stop regionserver注意:在启动hadoop的过程中,需要确保三台主机启动之后离开安全模式才能再开启hbase,不然hbase的相关进程hmaster,hregionserver可能有的节点可能起不来,本人试了三次,第一次只有一台起了hreginserver,后面hmaser没起来,又试了一下,数据终于从ods,到dwd,到dws有了数据,一开始以为是代码的问题,不明所以,实时项目

2021-01-19 18:51:55 4105

原创 大数据面试准备

1.给你一个场景写sql题2.对java基础的掌握arraylist和hashmap的区别:内部元素:Arraylist储存的是单个对象,HashMap储存的是一组一组的key和value内部结构:ArrayList是有序的,HashMap无序3.算法题:两个有序队列合成一个有序队列 (有没有其他方法)算法题:两个有序队列合成一个有序队列 import java.util.Arrays;class Solution { public static void main(String[

2021-01-16 17:02:17 225

原创 clickhouse客户端起不来connection refused

之前有些问题解决了,但是没有进行一个记录总结,导致可能后面出现相同的问题可能还是会花很多时间。我的密码是aaaaaa本人起clickhouse客户端出现了如下问题:1这时候是服务器没有启动,查看服务器启动没有用:ps -ef | grep clickhouse这时候发现没有启动(启动服务器需要查看才能保证真正启动)2.接下来需要去/var/log/查看日志信息,发现在配置/etc/clickhouse-server/config.d/metrika.xml首行出现了空行,于是修改完,重新启动cli

2021-01-16 16:42:25 3260

原创 实时

广播变量还是分区为单位流经过分区为什么变成迭代器放维度数据为什么要初始化?这样才能把之前的数据采集过来toJsonString把java对象转化为json格式的字符串parseObject把字符串-》json对象toJavaObject把json对象转化为java对象es(全文检索),hbase,clihouse根据需求(OLAP库)...

2021-01-15 08:41:46 93

原创 实时问题总结

1.sparkstreaming不仅要从kafka读数据然后根据表的性质写数据到kafka的不同topic中之前没搞清楚了,kafka存储的是ods层的数据2.local[?] ?表示多少个分区,设置为*会导致资源浪费3foreachRDD是行动算子

2021-01-12 21:23:39 155

原创 canal采集数据到mysql

为什么gmall没有消费到数据难道canal配置有问题?在这里插入图片描述这里的serverMode没有改为kafka在这里插入图片描述![在这里插入图片描述](https://img-blog.csdnimg.cn/20210111165148942.png老师怎么可以不用看,直接配试了好久终于可以了?不知道问题出在哪?...

2021-01-11 17:23:55 263

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除