Spark使用经验

在Ubuntu虚拟机中intellij使用Spark,在此记录一下我用到的知识。有不妥,请指出。不定时更新。

1.日志不输出INFO

  首先,在Spark安装目录下conf中找到log4j.prperties文件(蓝框),将里面log4j.rootCategory=INFO, console改为log4j.rootCategory=WARN, console。如果只有红框,可以在命令行里输入sudo cp log4j.properties.template log4j.prperties,生成蓝框文件,再按照之前修改。然后将其复制到项目目录下 src/resources中。

  最后,在项目目录下右键resources,选择Mark Directory as --> text resources root,再运行就不会输出INFO了。

2.Spark中DenseVector

参考:Spark MLlib 之 Vector向量深入浅出

3.矩阵向量

参考:Spark MLlib之使用Breeze操作矩阵向量

4.SparkSession的API

我用到的:

API功能
builder函数 p u b l i c s t a t i c S p a r k S e s s i o n . B u i l d e r b u i l d e r ( ) \color{purple}{public static SparkSession.Builder builder()} publicstaticSparkSession.Builderbuilder():创建 SparkSession.Builder,初始化SparkSession.
time函数 p u b l i c &lt; T &gt; T t i m e ( s c a l a . F u n c t i o n 0 &lt; T &gt; f ) \color{purple}{public &lt;T&gt; T time(scala.Function0&lt;T&gt; f)} public<T>Ttime(scala.Function0<T>f):执行一些代码块并打印输出执行该块所花费的时间。 这仅在Scala中可用,主要用于交互式测试和调试。

参考:
【spark】SparkSession的API
SparkSession详解

5.线性回归

参考:线性回归原理与spark/sklearn实现

  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值