自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(14)
  • 收藏
  • 关注

原创 **linux 常用命令*

linux 常用命令查看当前目录文件夹大小du -h --max-depth=1 ./查看磁盘挂载df -hT ./清理 linux cache 缓存sync; echo 1 >/proc/sys/vm/drop_caches每隔两秒刷新一次系统内存free -g -s 2查看磁盘利用率iostat -p 磁盘名称(df -h 查看) -x -k 1 (每隔一秒刷新一次)例如:iostat -p /dev/sda1 -x -k 1查看网络端口netstat -anp | grep 7337查

2023-11-04 17:21:33 54

翻译 idea 优化设置

设置打开文件数量的试:Perferences-> Editor -> General ->Editor Tabs,调整 Tab Closing Policy 的 Tab Limit,默认是10个,修改为你需要的个数即可。具体步骤:敲击Ctrl+Shift+Alt+/然后双击Shift搜索进入Registry,找到compiler.automake.allow.when.app.running,然后勾选上。->Compiler。默认Intellij最多同时只能打开10个文件,再多开就会把原来的Tab关闭了。

2023-03-19 00:15:06 2844

原创 hive sql

hiev 连续登录天数——股票最大涨停天数

2022-11-11 16:39:44 492

原创 MapReduce 工作原理

MapReduce 工作原理如下图:说明:1、split 为逻辑分片、block为物理块2、每条数据写入缓冲区时附带分区属性3、reduce 端通过 partition 识别 copy map端对应的分区数据,一个partition 对应一个reduce4、reduce 端 copy 线程 copy 数据到缓存,缓存存储不了数据时写到内存,内存到内存有merge...

2019-12-16 14:14:21 310

原创 kafka 架构原理

Kafka 架构分为三大块,生产者(producer),消费者(consumer)、消息代理者(broker)。1、生产者端将消息发送到代理者 broker2、不同类型消息在broker 被归类于到不同的主题下也就是topic,抽象topic 类的数据保存在分布式的多个partition下,每个partition 是一个文件夹,数据以分段的形式保存于(.log)的文件下和索引文件3消费者端通...

2019-12-12 17:40:34 157

原创 kafka 常用运维脚本

kafka客户端消费bin/kafka-console-consumer.sh –bootstrap-server ip:9092(默认) -topic test-topic [-group groupNmae -partition partitionNum]kafka客户 客户端生产者bin/kafka-console-producer.sh –broker-list ip:9092(多...

2019-12-10 14:05:56 185

原创 Spark shuffle 过程详解

Shuffle 过程分为map 端的write 和 reducer 端的read 两阶段Shuffle write 端发展史从 hashShuffleManager(默认spark1.2之前) 和 到 sortShuffleMangerHashShuffleManager 分为普通shuffle 和 consilodate机制shuffle1.普通shuffle普通shuffle...

2019-10-24 10:40:45 439

原创 spark 内存模型详解

首先 Spark 内存分为堆内内存(On-heap)和堆外内存(Off-heap);Excutor管理堆内存基于是jvm 管理内存之上,堆外内存使用的是节点所在的系统内存。堆内内存大小可以在spark 程序启动时通过 excutor.memomery或spark.excutor.memomery参数指定,excutor 内运行的并发任务共享jvm内存;堆外内存通过配置 spark.memome...

2019-10-24 10:22:01 392

原创 jar 包 下载不下来? 来这看看!

第一步:在maven远程库中查看有没有对应的 jar 包坐标,以及坐标是否正确。(maven 库地址https://mvnrepository.com/)第二步:如果坐标存在且正确,查看本地 maven 是否配置了该jar 所在远程库镜像,如下图:如上图所示,ImpalaJDBC41的所在库为“http://maven.icm.edu.pl/artifactory/repo/” ...

2019-09-11 16:34:58 2099

翻译 聊聊spark优化那点事

1、序列化 spark优化第一件事,选择序列化方式。对大对象的序列化和序列化速度慢都会影响spark程序的计算速度。spark提供两个序列化库: 第一:Java序列化(默认),Spark使用Java ObjectOutputStream框架序列化对象,并且可以与您创建的任何实现的类一起使用 java.io.Serializable。您还可以通过扩展来更紧密地控制序列化的性能 j...

2018-09-04 20:35:00 184

原创 spark on yarn 运行流程

一、driver 运行在集群中(cluster模式) 1、client 向 yarn 提交一个job 2、ResouceManager 为该job在某个 NodeManager 上分配一个 ApplicationMaster,NM启动AppMaster,Appmaster 启动 driver 3、ApplicationMaster 启动后完成初始化作业,driver 生成一系列task 4...

2018-08-05 17:15:53 7234 1

翻译 java 的值传递与引用传递的区别、== 和 equals 的区别

值传递是传递变量的值,并不会改变方法外变量的值public test (int b){println(b)int b=0;println(b)}public void main[String arg]{int i =1;test(i)println(i)}输出 1、0、1 引用传递是传递对象的地址,会改变对象本身的值void swap3(int &x, ...

2018-08-04 17:11:01 1117

原创 linux 常用命令

一、查看类 cat 查看文件内容,全部展示 tail 展示文件末尾10行 head 展示文件头部10行 二、查找类 grep -n xxx filename 查找指定字段并显示所在行数和行内容 grep -A xxx filename 查找指定字段并显示前十行 grep -B xxx filename 查找指定字段并显示后十行 grep -C xxx filen...

2018-07-27 18:08:02 104

原创 hive 的分组排序用法

**hive 的分组排序用法row_number() over( partition by 分组的字段 order by 排序的字段) as rank(rank 可随意定义表示排序的标识); row_number() over( distribute by 分组的字段 sort by 排序的字段) as rank(rank 可随意定义表示排序的标识) 注意: partitio...

2018-07-26 10:39:17 6919 1

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除