Spark
文章平均质量分 81
scuter_victor
这个作者很懒,什么都没留下…
展开
-
Spark2.0.0集群搭建部署
0 准备工作1)Hadoop集群部署,详细参照前两篇博文Hadoop集群安装配置教程 + Hadoop-2.7.3集群搭建中遇到的问题总结2)Scala安装:ubuntu系统直接–>”sudo apt-get install scala”,系统会帮你直接安装,如果出现”no package found”,那就需要修改ubuntu的软件服务器站点(即System Settings–>Software&原创 2016-09-23 10:37:12 · 622 阅读 · 0 评论 -
spark-shell脚本浅析(Spark2.0.0)
一、首先,po出spark-shell脚本代码,位置坐标为:$SPARK_HOME/bin/spark-shell#!/usr/bin/env bash## Licensed to the Apache Software Foundation (ASF) under one or more# contributor license agreements. See the NOTICE fil原创 2016-10-13 13:55:09 · 2692 阅读 · 0 评论 -
基于Spark ALS的离线推荐系统实践
首先,此推荐系统搭建在基于Hadoop(2.7.3)、Spark(2.0.0)、Zookeeper(可选)的集群上,关于Hadoop和Spark集群搭建可参考我前面几篇水水的博文~其次,此demo用到的数据来自DataCastle的一个正在进行的比赛,数据集在此请大家移步下载~比赛的主题是关于地点的推荐 (训练集数据格式:userID, addressID, count –> 用户id,地点id,原创 2016-10-28 16:05:46 · 3271 阅读 · 0 评论 -
大数据平台Lambda架构浅析(全量计算+增量计算)
笔者刚接触大数据方面时,只知道Hadoop和时下很火的Spark,对Hadoop、Spark的认知只停留在跑跑demo,写点离线小app,后来随着学业项目的需要,开始逐步了解时下工业界的大数据平台是如何搭建起来的。在搜刮大量资料后,从一篇paper里看到Lambda这一陌生的字眼,再一搜,发现这正是我需要的大数据平台基础架构。Oryx2正是基于Lambda架构和Spark搭建的大数据处理开源框架。原创 2016-12-23 22:50:53 · 5465 阅读 · 2 评论