1、sc.addFile() 、pyspark.SparkFiles.get()
把文件分发到集群中每个worker节点,然后worker会把文件存放在临时目录下,spark的driver和executor可以通过pyspark.SparkFiles.get()方法来获取文件的路径,从而能够保证driver和每个worker都能正确访问到文件。
2、错误报警:java.io.IOException: Cannot run program “python3”: CreateProcess error=2, 系统找不到指定的文件
解决方法:python.exe并改名为python3.exe
3、windows安装spark保姆级教程:
https://www.jianshu.com/p/c5190d4e8aaa
https://cloud.tencent.com/developer/article/1672192
4、
idea + spark 报错:object apache is not a member of package org
5、Spark2.0 中,引入SparkSession 作为 DataSet 和 DataFrame API 的切入点,SparkSession封装了 SparkConf、SparkContext 和 SQLContext。为了向后兼容,SQLContext 和 HiveContext也被保存下来。所以我们现在实际写程序时,只需要定义一个SparkSession对象就可以了。
val conf = new SparkConf().setAppName("Test02").setMaster("local")
val spark = SparkSession.builder.config(conf = conf).enableHiveSupport().getOrCreate()
import spark.implicits._
val sc = spark.sparkContext
val array = Array(1,2,3,4,5)
val rdd = sc.parallelize(array)
val sc1 =new SparkContext() //error ,不能再另外启动一个SparkContext
6、
createOrReplaceTempView creates (or replaces if that view name already exists) a lazily evaluated “view” that you can then use like a hive table in Spark SQL. It does not persist to memory unless you cache the dataset that underpins the view.
7、
yarn application -list |grep jinxb 列出后台hadoop进程
yarn application -kill application_1654572068031_245304 杀死指定app_id进程
8、hive表中字段很多,需要从大量字段中去除一个或者几个
将hive.support.quoted.identifiers设置为None,就可以使用正则表达式来取表的字段
select `(zs_1|zs_2|customer_name|par_num)?+.+`
from table1
9、上述语句通过python脚本os.system()提交的时候会报错,换成subprocess.call
status = subprocess.call(['beeline', '-e',
'set hive.support.concurrency=false;
set hive.support.quoted.identifiers=none;{}'.format(hql)])