Spark、Hive常见问题整理

置顶 jin_tmac

已于 2023-01-05 11:16:39 修改

阅读量2.4k

点赞数 1

分类专栏： Spark 文章标签： spark python

于 2022-04-01 16:20:00 首次发布

本文链接：https://blog.csdn.net/jin_tmac/article/details/123901086

版权

Spark 专栏收录该内容

6 篇文章 0 订阅

订阅专栏

1、sc.addFile() 、pyspark.SparkFiles.get()
把文件分发到集群中每个worker节点，然后worker会把文件存放在临时目录下，spark的driver和executor可以通过pyspark.SparkFiles.get()方法来获取文件的路径，从而能够保证driver和每个worker都能正确访问到文件。
2、错误报警：java.io.IOException: Cannot run program “python3”: CreateProcess error=2, 系统找不到指定的文件
解决方法：python.exe并改名为python3.exe
3、windows安装spark保姆级教程：
https://www.jianshu.com/p/c5190d4e8aaa
https://cloud.tencent.com/developer/article/1672192

4、
idea + spark 报错：object apache is not a member of package org

5、Spark2.0 中，引入SparkSession 作为 DataSet 和 DataFrame API 的切入点，SparkSession封装了 SparkConf、SparkContext 和 SQLContext。为了向后兼容，SQLContext 和 HiveContext也被保存下来。所以我们现在实际写程序时，只需要定义一个SparkSession对象就可以了。

val conf = new SparkConf().setAppName("Test02").setMaster("local")
val spark = SparkSession.builder.config(conf = conf).enableHiveSupport().getOrCreate()
import spark.implicits._

val sc = spark.sparkContext
val array = Array(1,2,3,4,5)
val rdd = sc.parallelize(array)

val sc1 =new SparkContext()  //error ,不能再另外启动一个SparkContext

6、
createOrReplaceTempView creates (or replaces if that view name already exists) a lazily evaluated “view” that you can then use like a hive table in Spark SQL. It does not persist to memory unless you cache the dataset that underpins the view.

7、

yarn application -list |grep jinxb 列出后台hadoop进程
yarn application -kill application_1654572068031_245304 杀死指定app_id进程

8、hive表中字段很多，需要从大量字段中去除一个或者几个
将hive.support.quoted.identifiers设置为None，就可以使用正则表达式来取表的字段

select `(zs_1|zs_2|customer_name|par_num)?+.+`
from table1

9、上述语句通过python脚本os.system()提交的时候会报错，换成subprocess.call

status = subprocess.call(['beeline', '-e',
         'set hive.support.concurrency=false;
         set hive.support.quoted.identifiers=none;{}'.format(hql)])