Spark、Hive常见问题整理

1、sc.addFile() 、pyspark.SparkFiles.get()
把文件分发到集群中每个worker节点,然后worker会把文件存放在临时目录下,spark的driver和executor可以通过pyspark.SparkFiles.get()方法来获取文件的路径,从而能够保证driver和每个worker都能正确访问到文件。
2、错误报警:java.io.IOException: Cannot run program “python3”: CreateProcess error=2, 系统找不到指定的文件
解决方法:python.exe并改名为python3.exe
3、windows安装spark保姆级教程:
https://www.jianshu.com/p/c5190d4e8aaa
https://cloud.tencent.com/developer/article/1672192

4、
idea + spark 报错:object apache is not a member of package org

5、Spark2.0 中,引入SparkSession 作为 DataSet 和 DataFrame API 的切入点,SparkSession封装了 SparkConf、SparkContext 和 SQLContext。为了向后兼容,SQLContext 和 HiveContext也被保存下来。所以我们现在实际写程序时,只需要定义一个SparkSession对象就可以了。

val conf = new SparkConf().setAppName("Test02").setMaster("local")
val spark = SparkSession.builder.config(conf = conf).enableHiveSupport().getOrCreate()
import spark.implicits._

val sc = spark.sparkContext
val array = Array(1,2,3,4,5)
val rdd = sc.parallelize(array)

val sc1 =new SparkContext()  //error ,不能再另外启动一个SparkContext

6、
createOrReplaceTempView creates (or replaces if that view name already exists) a lazily evaluated “view” that you can then use like a hive table in Spark SQL. It does not persist to memory unless you cache the dataset that underpins the view.

7、

yarn application -list |grep jinxb 列出后台hadoop进程
yarn application -kill application_1654572068031_245304 杀死指定app_id进程

8、hive表中字段很多,需要从大量字段中去除一个或者几个
将hive.support.quoted.identifiers设置为None,就可以使用正则表达式来取表的字段

select `(zs_1|zs_2|customer_name|par_num)?+.+`
from table1

9、上述语句通过python脚本os.system()提交的时候会报错,换成subprocess.call

status = subprocess.call(['beeline', '-e',
         'set hive.support.concurrency=false;
         set hive.support.quoted.identifiers=none;{}'.format(hql)])
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值