![](https://img-blog.csdnimg.cn/20190927151124774.png?x-oss-process=image/resize,m_fixed,h_224,w_224)
开发工具
文章平均质量分 77
Storm
时下握今
好好学习、天天向上; 喜欢代码,热爱时间
展开
-
Pycharm连接远端Python环境操作Spark
远程连接方案, 允许程序员连接远端测试环境, 确保环境的统一, 避免各种环境问题的发生,而且由于是连接的远程环境, 所有在Pycharm编写的代码 都会自动上传到远端服务器, 在执行代码的时候, 相当于是直接在远端环境上运行。原创 2023-06-24 18:48:50 · 966 阅读 · 0 评论 -
Hive调度工具Airflow
Centos7 、Docker、Docker-Compose 搭建AirFlow,用于调度Hive原创 2021-05-24 18:16:27 · 1334 阅读 · 1 评论 -
Spark框架几个调优的地方
采用kryo序列化方式;配置多个临时文件目录;配置多个临时文件目录;启用推测执行机制;不建议使用collect;RDD操作使用MapPartitions替代map,效率高;根据业务场景,选择合适的垃圾收集器原创 2020-06-29 09:55:38 · 157 阅读 · 0 评论 -
DataFrame对象的访问方式(API和SQL)(SparkSQL模块)
本篇讲述了Shell模式下通过DataFrame对象实例方法访问DF对象、Shell模型下通过SQL访问DF对象、ScalaAPI方式通过DataFrame对象实例方法访问DF对象、ScalaAPI方式通过SQL访问DF对象原创 2020-06-20 16:08:08 · 600 阅读 · 0 评论 -
Spark解决数据倾斜的方法
本文讲述了 分而治之 和 Map Side Join两种解决数据倾斜的方法;分而治之:采用key加随机数、两次分组。Map Side Join 有 小表和大表Join 和 两个大表Join:小表和大表Join的方法是,小表缓存,大表从缓存取数据,两个大表JOIN的方法是,两个大表分桶成小表后再Join。原创 2020-06-16 18:46:42 · 225 阅读 · 1 评论 -
Spark-Local模式和集群模式安装-scala版本
本文主要讲述了Spark在linux系统,单机模式 和 集群模式的安装启动和测试原创 2020-06-15 17:54:49 · 131 阅读 · 0 评论 -
RDD封装成DataFrame的几种方式(SparkSQL模块)
本文讲述了Spark中的集合、文件转化成DataFrame对象的方法。包括RDD对象实例的toDF方法;JSON格式文件直接转化为DF对象;数据库中二维表格直接转化为DF对象;如何在Spark2版本转化DataFrame对象原创 2020-06-19 20:17:22 · 338 阅读 · 0 评论 -
Storm集群下运行Topology
Storm数据流分组Tuple在Bolt组件之间的传输规则随机分组:Tuple随机分发到每Bolt组件,并保证每个Bolt组件分发的Tuple数量一致字段分组:相同Key被分配到同一个Bolt组件,统计单词频次采用这种分组策略全复制分组:每一个Tuple都会被分配到所有的Bolt组件全局分组:所有的Tuple分配到一个Bolt组件不分组:Storm并发机制一台Node机器节点:一个工作节点服务,运行一个Supervisor程序一个worker进程:一个工作节点可以运行1个或多个work原创 2021-02-26 16:50:27 · 269 阅读 · 0 评论 -
Storm集群配置及storm.yaml参数说明
本文讲述了在centos系统搭建storm集群,及storm.yaml中相关参数的说明原创 2020-07-04 11:54:44 · 912 阅读 · 0 评论