基于Spark的机器学习实践 (三) - 实战环境搭建

最新推荐文章于 2024-05-30 20:20:45 发布

weixin_34216196

最新推荐文章于 2024-05-30 20:20:45 发布

阅读量279

点赞数

文章标签：人工智能 scala shell

原文链接：https://juejin.im/post/5cac4cb15188251b2f3a41af

版权

0 相关源码

1 Spark环境安装

◆ Spark 由scala语言编写,提供多种语言接口,需要JVM

◆ 官方为我们提供了Spark 编译好的版本,可以不必进行手动编译

◆ Spark安装不难,配置需要注意,并且不一定需要Hadoop环境

下载
解压

tar zxvf spark-2.4.1-bin-hadoop2.7.tgz
复制代码

2 Spark配置

◆ 在配置前尽量先阅读官方文档,避免直接从网上找配置教程

◆ 要为节点设置好使用的内存,否则可能导致节点利用率低;

◆ 注意spark中IP与端口号的配置,以免UnknownHostException

官网配置

应用默认配置
配置文件
复制两份模板,开启自行配置

单机环境配置

本地IP

shell进行验证

bin/spark-shell
复制代码

3 Spark shell

◆ Spark shell是一个bash脚本,在./bin目录下

◆ Spark shell 为我们事先配置好了上下文(context) 和会话(session)

context实例
session实例
UI

4 实战Wordcount

4.1 Wordcount简介

◆ Wordcount 词频统计,是大数据分析中最为基础的一种任务英文分词较容易,直接分割空格即可。

◆ 实现思路首先将文件中所有的单词提取出来,然后合并相同单词

实现示意图

项目搭建

添加spark jar包
全选jar包,先左键选中第一个,再拉到最后shift,再左键最后一个实现全选.
新建类
测试文件

`pwd`/`ls |grep L`
复制代码

编写函数
运行成功
打包
移除这些多余的jar包
构建
将jar包放到spark/bin目录下使用 Spark-submit 运行

Spark机器学习实践系列

基于Spark的机器学习实践 (一) - 初识机器学习
基于Spark的机器学习实践 (二) - 初识MLlib
基于Spark的机器学习实践 (三) - 实战环境搭建

转载于:https://juejin.im/post/5cac4cb15188251b2f3a41af

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

weixin_34216196

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

一个简单的例子开启Spark机器学习

weixin_42211583的博客

06-29

2013

一、在看这个例子之前你需要：1）稍稍懂一些Scala的语法2）本地机器上有spark环境，最好安装了Hadoop二、一个简单的LR分类模型步骤1:处理数据成为LabeledPoint格式，参考：spark官网ml数据格式；一个简单明了的spark数据处理网上书籍步骤2:调用Spark工具包执行算法，参考：spark官网逻辑回归实现以下演示环境为spark-shellscala> sc//sp...

spark学习-hadoop安装与启动

搬砖笔记

06-23

2572

安装前准备 1.首先准备三台服务器.一台master,两台slave. 172.18.101.157 spark-master 172.18.101.162 spark-slave1 172.18.132.162 spark-slave2 2.设置免密登录 1. 生成私钥和公钥 [root@spark-master data]# ssh-keygen -t rsa 一直...

参与评论您还未登录，请先登录后发表或查看评论

基于Spark的机器学习实践 (六) - 基础统计模块

JavaEdge全是干货的技术号

04-12

1172

基于Spark的机器学习实践 (一) - 初识机器学习

weixin_34087503的博客

04-08

496

1 导学 1.1 开源大数据技术 1.2 提高竞争力必备 1.3 教程规划 1.7 预备知识了解大数据相关基础知识熟悉Linux基本命令熟悉Scala语言的编程方法有一定的数学基础 1.8 环境参数 Spark : 2.3.0 JDK : 1.8 IDE : IDEA 2 机器学习概述 2.1 机器学习概念 2.2 机器学习发展史 2.3 机器学...

案例为王，实战为主，基于spark2.x机器学习十大案例全方位剖析

beiqin9214的博客

08-30

545

课程下载地址：https://pan.baidu.com/s/1LuffQVoVjJjDkN3jT2TfQA 提取码: ytyc 本课程主要讲解Spark MLlib，Spark MLlib是一种高效、快速、可扩展的分布式计算框架；实现了常用的机器学习，如：聚类、分类、回归等算法。本课拒绝枯燥的讲述，将循序渐进从Spark的基础知识、矩阵向量的基础知识开始，然后再透彻讲解各个算法的理论、详细展示S...

第五：Spark启动！

2301_77834805的博客

03-06

1900

一.什么是SparkSpark是一种基于内存的快速、通用、可扩展的大数据分析计算引擎。是加州大学伯克利分校AMP实验室（Algorithms, Machines, and People Lab）开发的通用内存并行计算框架Spark得到了众多大数据公司的支持，这些公司包括Hortonworks、IBM、Intel、Cloudera、MapR、Pivotal、百度、阿里、腾讯、京东、携程、优酷土豆。当前百度的Spark已应用于大搜索、直达号、百度大数据等业务；

Spark 2.x + Python 大数据机器学习实战

08-06

《Spark 2.x + Python 大数据机器学习实战》是一门深入探讨如何利用Apache Spark 2.x和Python进行大数据分析和机器学习的课程。Spark作为分布式计算框架，因其高效的内存计算和灵活的数据处理能力，成为了大数据领域...

8.SparkMLlib（下）--SparkMLlib实战.pdf

04-04

1.Spark及其生态圈简介.pdf ...8.SparkMLlib（上）--机器学习及SparkMLlib简介.pdf 8.SparkMLlib（下）--SparkMLlib实战.pdf 9.SparkGraphX介绍及实例.pdf 10.分布式内存文件系统Tachyon介绍及安装部署.pdf

Spark 安装与启动

SmartSi

07-20

5984

如果你事先安装了Spark对应版本的Hadoop，那么可以选择forHadoopx.x类型，如果你安装的Hadoop版本没有对应的Spark，可以选择Pre-builtwithuser-providedApacheHadoop类型。选择Spark版本和Package类型之后，自动会为你生成spark-3.1.3-bin-hadoop2.7.tgz包地址，直接点击下载即可。Spark版本选择的不同，提供的Package类型也会不一样。...

服务器最全安装、配置、启动Spark集群_启动spark集群的命令

2401_84181403的博客

04-14

869

（10）由于slave1节点也需要安装 spark，因此可以先将master节点的 /opt/spark-2.2.0 文件和 /etc/profile 文件拷贝到slave1的相同路径下。（11）由于slave2节点也需要安装 spark，因此可以先将master节点的 /opt/spark-2.2.0 文件和 /etc/profile 文件拷贝到slave2的相同路径下。（3）解压 spark 文件到当前目录（/opt）下面，使用相对路径或者绝对路径均可，下面的命令使用绝对路径。（6）使环境变量生效。

spark的安装与部署

weixin_65195823的博客

06-28

1万+

为了避免MapReduce框架中多次读写磁盘带来的消耗，以及更充分地利用内存，加州大学伯克利分校的AMP Lab提出了一种新的、开源的、类Hadoop MapReduce的内存编程模型Spark。一、spark是什么？Spark是一个基于内存的大数据并行处理框架，其最初由加州大学伯克利分校的AMP Lab研发，现已成为Apache软件基金会的顶级项目之一。Spark不仅提供了可扩展、高容错、高性能的分布式数据处理，还提供了内存级的数据处理。

Spark的安装和使用

weixin_67281754的博客

04-12

1037

（该程序计算 /usr/local/spark/README 文件中包含 "a" 的行数和包含 "b" 的行数。cp ./bin/sbt-launch.jar ./ //把bin目录下的sbt-launch.jar复制到sbt的安装目录下。sudo chown -R hadoop /usr/local/sbt //此处的Hadoop为当前用户名。/usr/local/sbt/sbt package //如果没有权限需要加sudo。

Spark安装配置【全网最全保姆级教程】