spark
52fighting
佛祖保佑 永无BUG 佛曰: 写字楼里写字间,写字间里程序员;程序人员写程序,又拿程序换酒钱。酒醒只在网上坐,酒醉还来网下眠;酒醉酒醒日复日,网上网下年复年。但愿老死电脑间,不愿鞠躬老板前;奔驰宝码贵者趣,公交自行程序员。别人笑我忒疯癫,我笑自己命太贱;不见满街漂亮妹,哪个归得程序员?
展开
-
cdh6.3.2中2种spark命令行读取hive表数据方法
将hive配置文件hive-site.xml放到spark的conf目录下。在页面重启spark。原创 2022-08-09 15:02:10 · 879 阅读 · 0 评论 -
Spark任务执行流程与运行架构
1.Spark的执行流程1、说明(1)构建Spark Application的运行环境(启动SparkContext),SparkContext向资源管理器(可以是Standalone、Mesos或YARN)注册并申请运行Executor资源;(2)资源管理器分配Executor资源并启动StandaloneExecutorBackend,Executor运行情况将随着心跳发送到资源管理器上;(3)SparkContext构建成DAG图,将DAG图分解成Stage,并把Taskset发送给Task原创 2020-08-13 10:53:51 · 787 阅读 · 0 评论 -
Spark性能优化
1.程序开发开发调优Spark性能优化的第一步,就是要在开发Spark作业的过程中注意和应用一些性能优化的基本原则。开发调优,就是要让大家了解以下一些Spark基本开发原则,包括:RDD lineage设计、算子的合理使用、特殊操作的优化等。在开发过程中,时时刻刻都应该注意以上原则,并将这些原则根据具体的业务以及实际的应用场景,灵活地运用到自己的Spark作业中。1.1 原则一:避免创建重复的RDD通常来说,我们在开发一个Spark作业时,首先是基于某个数据源(比如Hive表或HDFS文件)创建一个初原创 2020-08-11 19:21:53 · 970 阅读 · 0 评论 -
CDH6集群搭建详解
★注意每处括号中的提示语句:(主节点操作),即该命令只需在主节点一台机器上执行1.配置hosts名称 之后reboot一下就会生效,然后连接工具重新连接即可vi /etc/hosts10.98.59.196 cdh0110.98.59.197 cdh0210.98.59.198 cdh0310.98.59.199 cdh0410.98.59.200 cdh052.添加网卡dns地址解析vi /etc/sysconfig/network-scripts/ifcfg-ens32DNS1=原创 2020-07-14 18:17:21 · 1660 阅读 · 0 评论 -
spark集群cdh clouderaManager各配置文件界面查看、下载
以查看hive-site.xml为例1.进入cdh界面,点击hive组件2.进入hive相关界面后,点击HiveServer23.选择进程标签,即可看到相关配置文件原创 2020-06-01 15:03:48 · 1333 阅读 · 0 评论 -
spark sql read sqlserver、write carbon报错spark.sql.AnalysisException: unsupported type: BinaryType
还原报错前提User class threw exception: org.apache.spark.sql.AnalysisException: unsupported type: BinaryType;(jdbc读写)SQL server表user字段名 字段类型Filed1 bigintFiled2 charFiled3 decimalFiled4 datetimeFiled5...原创 2020-03-05 18:04:04 · 970 阅读 · 0 评论