- 博客(80)
- 收藏
- 关注
原创 【快速定位生产问题】
一个方法中如果只有使用局部变量,这个局部变量发生OOM,堆内存溢出,但是局部变量的生命周期是跟随这个方法的栈帧,方法异常结束后,会释放这部分空间。或者Eclipse Memory Analyzer (MAT)打开,查看占用百分比,打开后可以看每个实例,占用堆的大小…可以用jdk自带的 jvisualvm 装入,就在jdk的bin目录上(jvisualvm.exe),类型选堆。一个方法如果使用成员变量,并且对这个变量的操作导致OOM堆内存溢出,那么方法结束并不会释放空间。开启这个参数,并指定路径。
2024-06-18 00:05:47
1441
原创 为什么要有Python虚拟环境
(其实激活就是把当前虚拟环境下Scripts 目录临时添加到了 PATH 环境变量的第一位,这样也解释了,为啥要把 python.exe 也放到了 Scripts 目录下。这样后续执行python也是首选的当前环境下的python.exe )同样也注意,不是只有激活才能进入虚拟环境,当我们直接使用当前环境下Scripts 里的python.exe时,启动 python 也是在虚拟环境中了。不同的项目可能会用到相同包,的不同版本,或依赖的其他包,这样就没法区分当前项目使用哪个版本,即版本不兼容。
2024-04-12 14:38:23
372
原创 synchronized 同步方法和同步代码块,以及synchronized 加锁 this 和 类class 的区别
同步方法的锁用的是 这个方法所在的这个对象/类上的内置锁。同步代码块要具体分析参与抢锁的对象是否持有相同的对象锁(也就是this、类.class、变量…是否同一个对象)。
2024-03-19 13:06:49
1466
1
原创 【shell 脚本】
定义函数必须写在调用函数之前,而且是在最前,不能出现在中间。# 定义sum()函数echo $sum# 调用sum $1 $2。
2023-04-15 23:23:44
390
原创 Spark Listener & Spark on Yarn
作业运行中的监控也可以有API自己开发。继承SparkListenerInterface,实现作业开始前、后等需要做的操作。 然后在SparkConf中set自定义的SparkListener监听器。Spark on Yarn 可以 client提交yarn,可以spark集群提交yarn。client模式提交的机器可以是集群外的。 集群内的话二者其实区别不大,但生产还是推荐cluster模式;自测可以client,方便查日志。spark-shell与spark-submit 区别。
2022-05-05 19:35:29
1087
原创 Flink 【一】
Flink特点、Flink的编程模型(获取执行环境、数据源、Transformations、数据输出Sink)、各阶段、算子的并行度、自定义数据源、自定义Sink
2022-04-26 21:32:35
2796
原创 【HashMap 数组长度为什么要是2的幂次方】
位运算代替取模运算、结果足够散列、Arrays.asList()创建的集合是不可变,它是Arrays的内部类ArrayList,而非java.util下的ArrayList
2022-04-24 21:16:54
592
原创 初识Azkaban
工作流调度,组织各任务单元之间存在的时间、依赖关系。常用的调度器:Azkaban 、 Azkaban 架构gradlew build 源码编译solo-server 模式和多节点模式Creating Flows、Azkaban二次开发一些场景&思路
2022-04-24 13:55:41
857
原创 Spark SQL 【一】
Spark SQL与Hive on Spark 区别、SparkContext 与 SparkSession、Spark SQL 对接hive(spark-shell、spark-sql、thirftserver)
2022-04-23 00:59:44
899
原创 Sqoop
截至目前,Hive 能实现的是,将hadoop的数据以SQL的方式操作:能在hive终端创建表和数据、能从本地oad数据到hadoop,也能从hadoop下载到本地。能提供hiveserver2作为服务端,交给beeline和jdbc做客户端操作数据。hive的元数据存在MySQL,但Hive的数据(hdfs的数据)并没有和MySQL有直接牵连。Sqoop数据需要从 Hadoop 导出 到 RDBMS,或者从RDBMS 到 Hadoop,如果使用 MR,代码很难写。Sqoop的作用就是在 hdf
2022-04-17 15:43:17
1208
原创 Hive 总结
HiveSQL on Hadoop:以SQL 和方式运行在Hadoop上。SQLUDF对大数据处理,最后落地最好都是SQL实现,受众所有语言的编程人员。对MapReduce来说需要开发大量代码。每一个框架的诞生都是为了去解决一类问题,没有一个框架能兼容所有场景。对于MR来说,就是用于:批计算、离线计算。 ==> Hive 也是。基于Hadoophive.apache.org由Facebook开源,处理海量结构化数据的统计问题。构建在Hadoop之上:Hive的数据是存在hd
2022-04-15 21:47:30
1433
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人