1.SparkSQL的数据结构
- 1.3版本 DataFrame
- 1.6版本 DataSet
- 2.0版本 DataFrame = DataSet[ROW]
- 注意: ROW: DataFrame中每条数据封装在Row中,Row表示每行数据
2. SparkSQL的代码初体验
import org.apache.spark.SparkContext
import org.apache.spark.sql.{Dataset, SparkSession}
object _01FirstSparkSql {
def main(args: Array[String]): Unit = {
val sparkSql: SparkSession = SparkSession
.builder()
.appName(this.getClass.getSimpleName.stripSuffix("$"))
.master("local[*]")
.getOrCreate()
val sc: SparkContext = sparkSql.sparkContext
sc.setLogLevel("WARN")
val valueDS: Dataset[String] = sparkSql.read.textFile("data/input/words.txt")
println("record counts is:",valueDS.count())
valueDS.show()
sparkSql.stop()
}
}