spark
向上低调的飞
雁过留声,石划水痕
展开
-
大数据的一般学习路线图
初次了解到大数据,会感觉到一头雾水。基于hadoop的大数据生态系统,成百上千的应用,还有各种各样的理论,不同理论发展的技术路径不同。经过一段时间的查找资料,还有借鉴某课程的教材,整理了一个大概的路线图,供大家梳理脉络。 1. linux 操作系统。因为hadoop部署在linux上,所以关于linux的一些基本命令是要掌握的。 2. java 基础。hadoop支持java,很多的框架也原创 2017-07-11 17:18:37 · 443 阅读 · 0 评论 -
MongoDB聚合操作Aggregation
MongoDB聚合操作Aggregation,主要用于处理数据统计,并返回计算后的数据结果 在mongodb官网https://docs.mongodb.com/manual/, 左侧菜单 preference -> operators -> aggregation pipeline operators-> pipeline aggregation stages ,列出来所有的操作命令,常用的$原创 2017-07-14 15:20:26 · 592 阅读 · 0 评论 -
Spark连接mongo
在大数据架构中,spark+mongo是个不错的组合,前段时间在研究spark连接mongo的操作,今天做个记录,把自己的操作步骤和遇到的问题贴出来,做个记录。 下面是软件的安装流程: 1. mongodb连接spark,在mongo的官网上的例子。Spark,scala的版本要对应匹配,系统环境变量设置 2. 下载spark 2.0.0版本,scala 2.11版本, mongo 3原创 2017-07-06 16:27:17 · 1827 阅读 · 0 评论 -
spark体系架构
开始Spark之旅。Spark是客户端和服务端的架构,从体系架构开始学习: 客户端:Driver Program , 核心是创建一个对象sc(SpringContext) 服务端:主节点Cluster manager ; 从节点 Worker , Executor负责执行任务 一个简单的架构图: ...原创 2019-02-17 23:23:49 · 885 阅读 · 0 评论 -
spark的安装搭建
学习Spark的安装部署,先介绍下基本情况,本地安装VMware,安装了5台centos的虚拟机,只有个8个G的内存所以不会5台全部开启。具体使用情况是:一台做本地(伪分布)模式,三台做集群,剩下最后一台做备用 服务器的命名:bigdata111, bigdata112, bigdata113, bigdata114, bigdata115 准备工作:JDK,ZK,Spark,免密码登陆 伪...原创 2019-02-24 22:48:35 · 113 阅读 · 0 评论