读取HDFS 上文件命令,
spark.read.textFile("/user/ssy.097").count
spark.read.wholeTextFiles
SparkContext.wholeTextFiles 能够读取指定目录下的许多小文本文件
spark.read.textFile("/user/ssy.097").map(_.split("\u001,-1")).show //相当于把每一行的内容看做一个map
spark.read.parquet("/user/ssy.097").createOrReplaceTempView("") // createOrReplaceTempView注册为临时表 注册完临时表就可以写sql语句去查询你需要的信息了
val df = sqlContext.read.json("file:///usr/local/spark/examples/src/main/resources/people.json") 读取 JSON 格式的数据
DataFrames 处理结构化数据
df.select("name").show() // 只显示 "name" 列
df.select(df("name"), df("age") + 1).show() // 将 "age" 加 1
df.filter(df("age") > 21).show() //条件语句
df.groupBy("age").count().show() // groupBy 操作
SQL 语句来进行操作
df.reg