在Ubuntu虚拟机中intellij使用Spark,在此记录一下我用到的知识。有不妥,请指出。不定时更新。
1.日志不输出INFO
首先,在Spark安装目录下conf中找到log4j.prperties文件(蓝框),将里面log4j.rootCategory=INFO, console
改为log4j.rootCategory=WARN, console
。如果只有红框,可以在命令行里输入sudo cp log4j.properties.template log4j.prperties
,生成蓝框文件,再按照之前修改。然后将其复制到项目目录下 src/resources中。
最后,在项目目录下右键resources,选择Mark Directory as --> text resources root,再运行就不会输出INFO了。
2.Spark中DenseVector
3.矩阵向量
4.SparkSession的API
我用到的:
API | 功能 |
---|---|
builder函数 | p u b l i c s t a t i c S p a r k S e s s i o n . B u i l d e r b u i l d e r ( ) \color{purple}{public static SparkSession.Builder builder()} publicstaticSparkSession.Builderbuilder():创建 SparkSession.Builder,初始化SparkSession. |
time函数 | p u b l i c < T > T t i m e ( s c a l a . F u n c t i o n 0 < T > f ) \color{purple}{public <T> T time(scala.Function0<T> f)} public<T>Ttime(scala.Function0<T>f):执行一些代码块并打印输出执行该块所花费的时间。 这仅在Scala中可用,主要用于交互式测试和调试。 |
参考:
【spark】SparkSession的API
SparkSession详解