Spark入门介绍

本文旨在帮助用户快速入门Spark,理解Spark是什么、它的主要功能和使用场景。Spark是一个分布式计算系统,提供Java、Scala、Python和R等接口,并包含Spark SQL、MLlib、GraphX和Spark Streaming等组件。Spark SQL支持SQL接口,方便操作结构化数据,而Spark Streaming则用于处理流数据。Spark适用于大数据分析和离线计算,常与HBase、Cassandra、ES等组件结合使用。
摘要由CSDN通过智能技术生成

Spark自从2014年1.2版本发布以来,已成为大数据计算的通用组件。网上介绍Spark的资源也非常多,但是不利于用户快速入门,所以本文主要通从用户的角度来介绍Spark,让用户能快速的认识Spark,知道Spark是什么、能做什么、怎么去做。

Spark是什么

摘用官网的定义:

Spark是一个快速的、通用的分布式计算系统。

提供了高级API,如:Java、Scala、Python和R。

同时也支持高级工具,如:Spark SQL处理结构化数据、MLib处理机器学习、GraphX用于图计算、Spark Streming用于流数据处理。

也就是说Spark提供了灵活的、丰富接口的大数据处理能力。下图是Spark的模块图:

 

用户使用的SQL、Streaming、MLib、GraphX接口最终都会转换成Spark Core分布式运行。

目前用户用的比较多的是SQL和Streaming,这里先主要介绍下这两个。

Spark SQL

Spark SQL是Spark提供的SQL接口,用户使用Spark SQL可以像使用传统数据库一样使用SQL。例如:创建表、删除表、查询表、join表等。连接到Spark SQL后可以做如下操作

 

# 在Spark中创建一个表:test_parquet,表的存储文件格式为:parquetcreate tabletest_parquet(idint,    namestring,valuedouble)usingparquet;

此命令运行完毕后,Spark系统会在hdfs上创建一个名称为test_parquet的目录,例如/user/hive/warehouse/test_parquet/。

然后往Spark表中插入数据。

如果你准备入行大数据,关于2019大数据目前的

【发展前景】戳我阅读

【就业岗位】戳我阅读

【大数据薪资待遇】戳我阅读

【完整的学习

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值