1.数据的分类
①非结构化数据:文本、多媒体
②结构化数据:数据库、格式化文本
③半结构化数据:key-value、xml、tag
2.DataFrame和RDD的区别
DataFrame是带Schema的RDD
创建DataFrame的方法:
scala>val ssc = new org.apache.spark.sql.SQLContext(sc)
scala>val df = ssc.read.json("/home/hadoop/app/spark-1.6.3-bin-hadoop2.6/examples/src/main/resources/people.json")
scala>df.show
3.DataFrame支持的操作
①explain帮助分析优化操作
②select
df.select(df("name"),df("age")+1).show()
③filter
df.filter(df("age")>=18).show()
④groupby
df.groupBy(df("age")).count().show()
⑤查看表信息
df.printSchema()
4.RDD转化成DF
①反射推断创建DF
scala> val sqlContext = new org.apache.spark