- 博客(2)
- 资源 (1)
- 收藏
- 关注
原创 sparksql-1.sparksql的schema和udf
1.spark根据schema读取json数据进行sparksql操作注意:读取json数据,特别是数据量比较大的json数据,需要定义schema,减少读取的数据量,不然加载太多数据浪费集群资源,而且太浪费时间,吃力不讨好。1)定义schemaimportorg.apache.spark.sql.types.{StructField, _}vallogSche
2018-01-31 11:18:57 809
原创 scala-1.RDD常见算子
RDD常用算子1.map(Func)val sentence = Array("Hello world ! I am an engineer ! good bye world!","good bye world !")val strdd = sc.parallelize(sentence)val wordcount = strdd.flatMap(line => line.split(" "...
2018-01-29 09:02:15 1042
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人