Spark Sql

最新推荐文章于 2024-03-27 07:39:52 发布

有菜的马哥

最新推荐文章于 2024-03-27 07:39:52 发布

阅读量206

点赞数 1

分类专栏：大数据学习

本文链接：https://blog.csdn.net/Maqiuqiu520/article/details/103074972

版权

大数据学习专栏收录该内容

18 篇文章 0 订阅

订阅专栏

1.开启hadoop进程

jps  
cd /apps/hadoop/sbin  
./start-all.sh

2.下载一个json数据文件

2.1将文件上传到hdfs上

3.启动spark-shell

4.读取HDFS中/myspark6的goods_visit.json文件。

val df=sqlContext.read.json("hdfs://localhost:9000/myspark6/goods_visit.json")

5.查看goods_visit.json中的所有数据。

df.show()

6.查看goods_visit.json的表结构。

df.printSchema()

7.只查看商品ID(goods_id)。

df.select("goods_id").show()

8.统计文件行数。

df.count

9条件查询，查询点击次数超过500商品。(show是返回字段和表数据，collect是返回集合)

df.filter(df("click_num")>500).show

10.统计点击次数的最值、总和及平均数。

df.agg(max("click_num"),sum("click_num"),min("click_num"),avg("click_num")).show

11.过滤点击次数小于200的商品。

df.filter(df("click_num") < 200).show()

12.按点击次数进行分组统计。

df.groupBy("click_num").count().show()

13.读取goods_visit.json文件，保存为parquet格式。

val df = sqlContext.read.format("json").load("hdfs://localhost:9000/myspark6/goods_visit.json")  
df.select("goods_id", "click_num").write.format("parquet").save("goods_visit.parquet")

14.查看保存的goods_visit.parquet文件。

hadoop fs -ls /user/zhangyu

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

有菜的马哥

关注关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

SparkSQL，创建表，查询数据，加载文件，处理文件，存储文件

qq_43241439的博客

11-30

2530

实验思路：在Linux上，创建/data/sparkshell目录，用于存储实验所需的数据。切换目录到/data/sparkshell下，并从指定网址下载buyer_favorite文件。使用jps查看Hadoop以及Spark的相关进程是否已经启动，若未启动则执行启动命令。将Linux本地/data/sparkshell/buyer_favorite文件，上传到HDFS上的/my...

Spark Sql中时间字段少8个小时问题解决

02-28

### Spark SQL 中时间字段少8个小时问题解决 #### 问题背景在进行数据处理时，尤其是在涉及时间戳字段转换的过程中，经常会遇到时区问题。本文将详细探讨在使用Spark SQL处理Hive表中的时间戳字段时，遇到的时间...

参与评论您还未登录，请先登录后发表或查看评论

Spark SQL整合hive

weixin_44077750的博客

01-04

1281

Spark SQLSpark SQL整合Hive1. 修改Hive配置文件hive-site.xml2. 将hive-site.xml 复制到spark conf目录下3. 启动hive元数据服务4.将mysql 驱动包复制到saprk jars目录下5. 启动Spark SQL案例 Spark SQL整合Hive 1. 修改Hive配置文件hive-site.xml 在Hive的conf目录下在hive-site.xml中添加以下内容 <property> <name>hi

SparkSQL_DataFrame

Faded1573606285的博客

11-10

235

1 SparkSession新的起始点在老的版本中，SparkSQL提供两种SQL查询起始点：一个叫SQLContext，用于Spark自己提供的SQL查询；一个叫HiveContext，用于连接Hive的查询。 SparkSession是Spark最新的SQL查询起始点，实质上是SQLContext和HiveContext的组合，所以在SQLContext和HiveContext上可用的A...

Spark Sql 原理讲解

Mirror_w的博客

06-01

1431

Spark Sql简介 1.hive和Spark的比较 hive:将sql解析成MR任务。 Spark :修改hive的内存管理、物理计划、执行三个模块 2.两者的解耦 Spark对Hive的强依赖，使用Hive的语法解析器、查询优化器等。满足Spark一栈式技术栈的设计理念：Spark Sql 3.Spark on Hive 和Hive on Spark Spark on Hi...

在spark SQL中指定多个表

qq_36248805的博客

02-20

1843

1.写一个创建mysql表的工具类Utility.scala /** * 创建mysql的表 * * @param url msyql的url * @param userName mysql用户名 * @param password mysql密码 * @param tables 注册的表名集合 * @param spark...

Spark SQL

ytzhyp的博客

03-20

3820

新手入门文章

Spark SQL概述

qq_45973211的博客

08-28

1591

Spark SQL是Spark用来处理结构化数据的一个模块

Spark SQL 数据源

03-26

5万+

Spark SQL支持读取很多种数据源，比如parquet文件，json文件，文本文件，数据库等。先把people.json导入到hdfs的tmp目录下。

Spark SQL— Catalyst 优化器

热门推荐

03-27

5万+

优化一词是指修改系统以使其工作更高效或使用更少资源的过程。Spark SQL是 Apache Spark 中技术含量最高的组件。Spark SQL 处理 SQL 查询和 DataFrame API。Spark SQL 的深处有一个催化剂优化器。Catalyst 优化允许一些高级编程语言功能，使您可以构建可扩展的查询优化器。一种名为 Catalyst 的新型可扩展优化器出现了，用于实现 Spark SQL。该优化器基于**Scala中的函数式编程构造。Catalyst Optimizer 支持。

Spark SQL简介

m0_46917254的博客

04-04

2万+

Spark SQL简介一、从Shark说起 1、在这之前我们要先理解Hive的工作原理： Hive是一个基于Hadoop的数据仓库工具，提供了类似于关系数据库SQL的查询语言——HiveSQL，用户可以通过HiveSQL语句快速实现简单的MapReduce统计，Hive自身可以自动将HiveSQL语句快速转换成MapReduce任务进行运行。 2、Shark提供了类似于Hive的功能，与Hive不同的是，Shark把SQL语句转换成Spark作业，而不是MapReduce作业。可以近似地认为：Shar

基于antlr4 解析器，支持spark sql, tidb sql, flink sql, Sparkflink运行命令解析器

03-14

在本项目中，ANTLR4被用来创建一个解析器，这个解析器支持多种SQL方言，包括Spark SQL、TiDB SQL以及Flink SQL，同时还支持Spark和Flink的运行命令解析。 Spark SQL是Apache Spark的一个组件，主要负责处理结构化的...

实训指导书_使用Spark SQL进行法律服务网站数据分析.zip

09-14

《Spark SQL在法律服务网站数据分析中的应用》 Spark SQL是Apache Spark的重要组件，它将SQL查询语言与大数据处理相结合，使得非程序员也能轻松地对大规模数据进行分析。本实训指导书将带你深入理解如何利用Spark ...

Spark SQL操作JSON字段的小技巧

09-09

Spark SQL是一款强大的大数据处理工具，它提供了对JSON数据的内置支持，使得在处理JSON格式的数据时更加便捷。本文将详细介绍Spark SQL操作JSON字段的几个关键函数：get_json_object、from_json 和 to_json，以及...

Atlas Spark SQL血缘分析，Hive Hook

05-25

4. **执行Spark SQL操作**：当Spark SQL通过Hive接口执行DML（Data Manipulation Language）或DDL（Data Definition Language）操作时，Hive Hook会捕获这些操作的元数据变更。 5. **血缘信息收集和存储**：捕获的...

X3手薄试用的工程之星3.0

10-27

X3手薄试用的工程之星3.0

传感器+绘制.alp

10-27

Android andlua androlua lua实战工程

基于聚类和分通道场景识别（CAD&CG）

10-27

基于聚类和分通道场景识别（CAD&CG）

yolo算法-水底垃圾检测数据集-1121张图像带标签-宏观塑料detection-dpdol.zip