1.自己负责的任务一定要保证质量
2.做归一化的处理比较重要
3.Oracle本身数据不能实现分布式的读取,因此可以考虑使用多线程的方式去读取数据
4.将数据归一化成字符串类型后,对后期的处理非常有用
5.rdd dataFrame list之间的相互转换
(1)add new value of one column
dataFrame.map(row=>Row.fromSeq(row.toSeq ++ Array(date)))
(2)list2DataFrame
list.map(x=>Row(x:_.*))
sc.mkRdd(list)
sqlContext.createDataFrame(rd,schema)