spark_52fighting的博客-CSDN博客

spark

关注

关注数：文章数：6 文章阅读量：6599 文章收藏量：14

作者: 52fighting

佛祖保佑永无BUG 佛曰: 写字楼里写字间，写字间里程序员；程序人员写程序，又拿程序换酒钱。酒醒只在网上坐，酒醉还来网下眠；酒醉酒醒日复日，网上网下年复年。但愿老死电脑间，不愿鞠躬老板前；奔驰宝码贵者趣，公交自行程序员。别人笑我忒疯癫，我笑自己命太贱；不见满街漂亮妹，哪个归得程序员？

展开

cdh6.3.2中2种spark命令行读取hive表数据方法

将hive配置文件hive-site.xml放到spark的conf目录下。在页面重启spark。

原创 2022-08-09 15:02:10 · 879 阅读 · 0 评论
Spark任务执行流程与运行架构

1.Spark的执行流程1、说明(1)构建Spark Application的运行环境（启动SparkContext），SparkContext向资源管理器（可以是Standalone、Mesos或YARN）注册并申请运行Executor资源；(2)资源管理器分配Executor资源并启动StandaloneExecutorBackend，Executor运行情况将随着心跳发送到资源管理器上；(3)SparkContext构建成DAG图，将DAG图分解成Stage，并把Taskset发送给Task

原创 2020-08-13 10:53:51 · 787 阅读 · 0 评论
Spark性能优化

1.程序开发开发调优Spark性能优化的第一步，就是要在开发Spark作业的过程中注意和应用一些性能优化的基本原则。开发调优，就是要让大家了解以下一些Spark基本开发原则，包括：RDD lineage设计、算子的合理使用、特殊操作的优化等。在开发过程中，时时刻刻都应该注意以上原则，并将这些原则根据具体的业务以及实际的应用场景，灵活地运用到自己的Spark作业中。1.1 原则一：避免创建重复的RDD通常来说，我们在开发一个Spark作业时，首先是基于某个数据源（比如Hive表或HDFS文件）创建一个初

原创 2020-08-11 19:21:53 · 970 阅读 · 0 评论
CDH6集群搭建详解

★注意每处括号中的提示语句：（主节点操作），即该命令只需在主节点一台机器上执行1.配置hosts名称之后reboot一下就会生效，然后连接工具重新连接即可vi /etc/hosts10.98.59.196 cdh0110.98.59.197 cdh0210.98.59.198 cdh0310.98.59.199 cdh0410.98.59.200 cdh052.添加网卡dns地址解析vi /etc/sysconfig/network-scripts/ifcfg-ens32DNS1=

原创 2020-07-14 18:17:21 · 1660 阅读 · 0 评论
spark集群cdh clouderaManager各配置文件界面查看、下载

以查看hive-site.xml为例1.进入cdh界面，点击hive组件2.进入hive相关界面后，点击HiveServer23.选择进程标签，即可看到相关配置文件

原创 2020-06-01 15:03:48 · 1333 阅读 · 0 评论
spark sql read sqlserver、write carbon报错spark.sql.AnalysisException: unsupported type: BinaryType

还原报错前提User class threw exception: org.apache.spark.sql.AnalysisException: unsupported type: BinaryType;(jdbc读写)SQL server表user字段名字段类型Filed1 bigintFiled2 charFiled3 decimalFiled4 datetimeFiled5...

原创 2020-03-05 18:04:04 · 970 阅读 · 0 评论

spark

作者: 52fighting

cdh6.3.2中2种spark命令行读取hive表数据方法

Spark任务执行流程与运行架构

Spark性能优化

CDH6集群搭建详解

spark集群cdh clouderaManager各配置文件界面查看、下载

spark sql read sqlserver、write carbon报错spark.sql.AnalysisException: unsupported type: BinaryType