spark读取csv文件,如果用textFile直接读取也可以,但是对于后续的操作不太方便。所以要采用sqlContext来读取csv文件
在shell中直接使用sqlContext 时会报错,所以启动时要添加依赖包
./spark-shell --packages com.databricks:spark-csv_2.10:1.3.0
这样就直接进入了shell,然后加载hdfs上的csv文件,
val df = sqlContext.load("com.databricks.spark.csv", Map("path" -> "sfpd.csv", "header" -> "true"))
header默认为false,表示显示表格的第一行,也就是表头,如果为true的话就是不显示