![](https://img-blog.csdnimg.cn/20201014180756918.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
spark
YiqiangXu
把时间投入到最有价值的地方
展开
-
spark学习(不公开)
spark源码编译: sbt编译配置文件:spark1.0.0/project/SparkBuild.scala meaven配置文件:spark1.0.0/pom.xml spark-1.0.0/assembly/target/scala-2.1.0 spark-assembly-1.0.0-hadoop2.2.0.jar bin/spark-shell --master sp原创 2016-10-10 21:59:00 · 168 阅读 · 0 评论 -
spark-shell 统计hbase数据条数
sc.stop sc.stop import org.apache.hadoop.conf.Configuration import org.apache.hadoop.hbase.client.HBaseAdmin import org.apache.hadoop.hbase.{HBaseConfiguration, HTableDescriptor, TableName} import or原创 2016-09-29 13:51:36 · 1292 阅读 · 0 评论 -
spark-shell 统计hbase数据条目数
sc.stop sc.stop import org.apache.hadoop.conf.Configuration import org.apache.hadoop.hbase.client.HBaseAdmin import org.apache.hadoop.hbase.{HBaseConfiguration, HTableDescriptor, TableName} import or原创 2016-09-29 13:54:44 · 2266 阅读 · 0 评论 -
Intellij IDEA搭建Spark开发环境并运行
在IntellIJ IDEA中搭建好spark开发环境,并在IntelliJ IDEA中运行local模式,这是学习spark开发和调试spark程序,以及分析spark源码的绝佳方式. 基本流程: 1.安装JDK,注意版本要和spark兼容 2.安装scala,注意版本要和spark兼容 3.安装IntelliJ IDEA 并安装scala插件 4.新建scala工程,制定JDK,和s原创 2017-08-02 11:34:59 · 1195 阅读 · 0 评论 -
Spark SQL, DataFrames and Datasets Guide
概述: Spark SQL是用于结构化数据处理的Spark模块。 与基本的Spark RDD API不同,Spark SQL提供的接口为Spark提供了有关正在执行的数据和计算结构的更多信息。 在内部,Spark SQL使用这些额外的信息执行额外的优化。 有几种与Spark SQL进行交互的方法,包括SQL和Dataset API。 当计算结果时,使用相同的执行引擎,独立于您用来表达计算的API翻译 2017-07-25 10:19:42 · 594 阅读 · 0 评论 -
对spark mlib的Pipeline的理解
参考博客: sparkmlib使用Pipeline实现简单的逻辑回归 Pipeline详解及Spark MLlib使用原创 2017-08-02 16:20:12 · 426 阅读 · 0 评论