spark
许可方
这个作者很懒,什么都没留下…
展开
-
cdh启动spark-shell报错
安装好cdh和spark之后启动spark-shell报错org.apache.hadoop.security.AccessControlException: Permission denied: user=root, access=WRITE, inode="/user":hdfs:supergroup:drwxr-xr-x将这个勾选去掉就可以了原创 2022-05-14 16:05:56 · 437 阅读 · 0 评论 -
pyspark sql中如何使用参数
pysparksql脚本中如何引入变量原创 2022-03-08 10:20:02 · 3481 阅读 · 0 评论 -
spark 写入tidb 报错read-uncommitted is not supported
报错日志:Caused by: java.sql.SQLException: The isolation level ‘READ-UNCOMMITTED’ is not supported. Set tidb_skip_isolation_level_check=1 to skip this error解决方式:val tidb_url = ""//填写自己的tidburlval table_name = "aa"//要插入的tidb表val properties = new Properties原创 2021-06-28 16:53:43 · 1436 阅读 · 0 评论 -
spark sql解析过程及底层原理
Spark SQL 是 Spark 众多组件中技术最复杂的组件之一,它同时支持 SQL 查询和 DataFrame DSL。通过引入了 SQL 的支持,大大降低了开发人员的学习和使用成本。目前,整个 SQL 、Spark ML、Spark Graph 以及 Structured Streaming 都是运行在 Catalyst Optimization & Tungsten Execution 之上的,如下图所示:所以,正常的 SQL 执行先会经过 SQL Parser 解析 SQL,然后经过转载 2021-01-20 14:26:52 · 1432 阅读 · 0 评论 -
sparksql使用hive元数据
一、若要把 Spark SQL 连接到一个部署好的 Hive 上,你必须把 hive-site.xml 复制到Spark 的配置文件目录中($SPARK_HOME/conf)。二、运行spark-sql的时候会报错需要指定mysql驱动器位置spark-sql --driver-class-path /home/hadoop/apps/hive/lib/mysql-connector-java-5.1.40-bin.jar成功启动!...原创 2021-01-09 19:43:05 · 502 阅读 · 0 评论 -
spark作业通过yarn的cluster方式提交如何查看打印结果
通过yarn的web页面找到applicationId如图:然后通过yarn logs -applicationId application_1577551789122_0001命令就可以查看打印结果了原创 2020-01-07 09:00:55 · 1602 阅读 · 0 评论 -
spark中的宽依赖与窄依赖
spark中的宽依赖与窄依赖区分宽依赖和窄依赖的原因是:如果子RDD分区的数据丢失,需要从父RDD分区进行重新计算,如果是窄依赖就直接计算对应的父RDD分区内的数据就可以了,不用计算所有的父RDD分区内的数据。由此总结推断:如果子RDD分区内的数据可以通过固定的一个或者多个父RDD分区计算得出结果那就是窄依赖,如果不能那就是宽依赖。...原创 2019-12-24 14:37:53 · 238 阅读 · 0 评论