- 博客(2)
- 资源 (3)
- 收藏
- 关注
原创 pyspark -- DataFrame
与RRD的区别1.DataFrame让spark具备了处理大规模结构化数据的能力,比rdd转化方式更加简单易用,并且获得了更高的计算性能2. DataFrame支持sql查询3.RDD是分布式的Java对象集合,对象内部结构不可知3.DataFrame以RDD为基础的分布式数据集,提供了详细的结构信息创建spark.createDataFrame(...)spar...
2019-02-28 10:30:09 212
原创 pyspark -- RDD
rdd:弹性分布数据集创建1.sc.parallelize(...)2.引用文件 sc.textFile(...)转换.map(...).filter(...).flatMap(...).distinct(...) 去重.sample(...) 随机样本.leftOuterJoin(...).repartition(...) 分区.tak...
2019-02-27 23:06:07 153
tensorflow中文文档
2018-06-06
XCTestAPI文档
2017-09-27
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人