spark
O白马非马O
IT菜鸟级民工
展开
-
SPARK官方实例:两种方法实现随机森林模型(ML/MLlib)
SPARK官方实例,两种方法实现随机森林原创 2017-05-31 17:26:24 · 5442 阅读 · 0 评论 -
Spark SQL中DataFrame API 的解析
collect, collectAsList count first head show take cache Columns dtypes explain isLocal printSchema registerTempTable schema toDF agg apply as distinct except explode filter groupBy intersect join limit原创 2017-05-18 10:58:15 · 838 阅读 · 0 评论 -
Spark基本介绍和编译安装
Spark快如闪电的集群计算 是快速和通用的大规模数据处理技术【speed】 执行mr作业程序在内存比hadoop快100倍,磁盘上快10倍 spark有着DAG(有向无环图)执行引擎,支持离散数据流和内存计算【易于使用】 多种语言编写 Java scala python R【Generality】 合成SQL,流计算,复杂分析spark有自己的集群计算技术,扩展了hadoop mr模型原创 2017-05-14 12:12:55 · 397 阅读 · 0 评论 -
SPARK必备概念
RDD (resilient distributed dataset)弹性分布式数据集One stack to rule them all(一个技术堆栈容纳各种数据处理技术) 包括的大数据计算模型:MapReduce、Streaming、SQL、Machine Learning、graph Processing对应的Spark四大子框架:Spark Streaming,Spark SQL,Mlli原创 2017-05-09 17:18:54 · 469 阅读 · 0 评论 -
SPARK模型实例:两种方法实现随机森林模型(MLlib和ML)
SPARK模型实例,基于HiveSQL,实现随机森林模型的训练和预测原创 2017-06-02 17:34:18 · 4364 阅读 · 1 评论