spark rdd java_spark schema rdd to RDD

最新推荐文章于 2023-07-29 09:51:56 发布

原创最新推荐文章于 2023-07-29 09:51:56 发布 · 192 阅读

0 ·

CC 4.0 BY-SA版权

文章标签：

#spark rdd java

我想在spark中进行单词计数，我使用spark sql创建了一个rdd来从数据集中提取不同的推文 . 我想在RDD之上使用split函数，但它不允许我这样做 .

错误： - valuse split不是org.apache.spark.sql.SchemaRdd的成员

Spark代码无法进行字数统计： -

val disitnct_tweets=hiveCtx.sql("select distinct(text) from tweets_table where text <> ''")

val distinct_tweets_List=sc.parallelize(List(distinct_tweets))

//tried split on both the rdd disnt worked

distinct_tweets.flatmap(line => line.split(" ")).map(word => (word,1)).reduceByKey(_+_)

distinct_tweets_List.flatmap(line => line.split(" ")).map(word => (word,1)).reduceByKey(_+_)

但是，当我将sparksql中的数据输出到文件并再次加载并运行拆分时，它可以工作 .

有效的示例代码： -

val distinct_tweets=hiveCtx.sql("select dsitinct(text) from tweets_table where text <> ''")

val distinct_tweets_op=distinct_tweets.collect()

val rdd=sc.parallelize(distinct_tweets_op)

rdd.saveAsTextFile("/home/cloudera/bdp/op")

val textFile=sc.textFile("/home/cloudera/bdp/op/part-00000")

val counts=textFile.flatMap(line => line.split(" ")).map(word => (word,1)).reduceByKey(_+_)

counts.SaveAsTextFile("/home/cloudera/bdp/wordcount")

我需要一个答案而不是写入文件并再次加载以执行我的分割功能是否有解决功能的工作

谢谢

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

阿尔法小分队

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

【Spark基础】-- RDD 转 Dataframe 的三种方式

欢迎来到我的博客，一起探索代码里的世界！

11-28

1707

1、通过 StructType 创建 Dataframe（3、通过定义 schema 类创建 DataFrame。2、通过 RDD 推断创建 DataFrame （强烈推荐使用这种方法。

一文彻底搞清楚Spark Schema

SunnyRivers

09-28

808

Spark Schema定义了DataFrame的结构，可以通过对DataFrame对象调用printSchema()方法来获得该结构。Spark SQL提供了StructType和StructField类以编程方式指定架构。默认情况下，Spark从数据中推断schema，但有时我们可能需要定义自己的schema（列名和数据类型），尤其是在处理非结构化和半结构化数据时，本文通过示例解释了如何定义简单、嵌套和复杂的schema。

参与评论您还未登录，请先登录后发表或查看评论

SparkSQL读取普通格式的RDD通过动态创建Schema方式加载DatFrame

yj2434的博客

11-03

508

示例代码： import org.apache.spark.rdd.RDD import org.apache.spark.sql.types.{DataTypes, StructField, StructType} import org.apache.spark.sql.{Row, SparkSession} /** * 通过动态创建Schema方式将普通格式的RDD转换成DataFrame * 注意： * 创建StructType类型的数据时，StructField字段的顺序需要与构建的RDD[

java使用spark/spark-sql处理schema数据

weixin_30877493的博客

05-22

318

1、spark是什么？ Spark是基于内存计算的大数据并行计算框架。 1.1 Spark基于内存计算相比于MapReduce基于IO计算，提高了在大数据环境下数据处理的实时性。 1.2 高容错性和高可伸缩性与mapreduce框架相同，允许用户将Spark部署在大量廉价硬件之上，形成集群。 2、spark编程每一个spark应用程序都包含一个驱动程序（driver pr...

spark 嵌套schema，嵌套集合自定义对象方式

anxiuyan1618的博客

01-14

675

假设一个对象中，有一个自定义的对象集合，比如： import java.io.Serializable; import java.util.List; public class LogInfo implements Serializable{ private static final long serialVersionUID = 4053810260183406530...

SparkRDD、SchemaRDD（dataFrame）和SparkSQL 之间的关系

Gscsd的博客

04-22

2978

普通数据--》SparkRDD-》SchemaRDD（dataFrame）-》sparkSQL 1. 普通数据的获取首先我们要先获取到一些数据，有以下这些方法： a) 导入本地的文件这种方法我也不会用，但是有这种，我们一般用后面那几种 ...

Spark的DataFrame和Schema详解和实战案例Demo

programmer589的博客

07-29

1165

Spark的DataFrame和Schema详解和实战案例Demo

Java和scala实现 Spark RDD转换成DataFrame的两种方法小结

08-27

Java 和 Scala 实现 Spark RDD 转换成 DataFrame 的两种方法小结在本文中，我们将讨论如何使用 Java 和 Scala 将 Spark RDD 转换成 DataFrame，並且介绍两种实现方法。准备数据源在项目下新建一个 student.txt...

将string类型的数据类型转换为spark rdd时报错的解决方法

09-19

### 将String类型的数据类型转换为Spark RDD时报错的解决方法 #### 背景介绍在使用Apache Spark进行数据处理时，我们经常会遇到需要将不同格式的数据转换为Spark RDD（弹性分布式数据集）的情况。RDD是Spark中最...

spark jdbc java_spark之JDBC开发（实战）

weixin_39937312的博客

02-13

1020

一、概述Spark Core、Spark-SQL与Spark-Streaming都是相同的,编写好之后打成jar包使用spark-submit命令提交到集群运行应用$SPARK_HOME/bin#./spark-submit --master spark://Master01:7077 --class MainClassFullName [--files $HIVE_HOME/conf/hiv...

Rdd转换成SparkSQL的DataSet如何指定schema

西贝没有横

10-09

651

与RDD进行相互操作 SparkSQL支持两种不同方法将现有RDD转换成DataSets。第一种方法使用反射来推断包含特定类型对象的RDD的schema。这种基于反射的方法会导致更简洁的代码，并且在编写Spark应用程序时已经知道schema的情况下可以良好工作第二种创建Datasets的方法是通过编程接口，允许构建schema,然后将其应用于现在的RDD。此方法更加详细，但是它...

spark struct java_java - 如何在Spark Java中创建复杂的StructType模式 - 堆栈内存溢出

weixin_35327612的博客

02-16

1221

如何在Spark Java中使用StructType为以下数据定义数据类型sam|mars|1234567|"report": {"Details": [{"subject": "science","grade": "A","remark": "good"},{"subject": "maths","grade": "E","remark": "excellent"},{"subject": "g...

spark rdd 和 DF 转换

野兽

08-07

5281

RDD -》 DF 有两种方式一、一、Inferring the Schema Using Reflection 将 RDD[t] 转为一个 object ,然后 to df val peopleDF = spark.sparkContext .textFile("examples/src/main/resources/people.txt"...

RDD操作详解（一）基本转换

Running_Tiger的博客

03-06

1万+

RDD操作详解（一）基本转换启动spark-shell spark-shell --master spark://node-1:7077 1. map map是对RDD中的每个元素都执行一个指定的函数来产生一个新的RDD。任何原RDD中的元素在新RDD中都有且只有一个元素与之对应。举例： scala> val a = sc.parallelize(1 to 9...

RDD: 与DataFrame之间的相互转换

不花的花和尚的博客

09-27

8239

DataFrame是一个组织成命名列的数据集。它在概念上等同于关系数据库中的表或R/Python中的数据框架，但其经过了优化。 DataFrames可以从各种各样的源构建。例如：结构化数据文件，Hive中的表，外部数据库或现有RDD。 DataFrame API 可以被Scala，Java，Python和R调用。在Scala和Java中，DataFrame由Rows的数据集表示。 ...

JavaRDD和RDD的互相转换--终极版

mbshqqb的博客

10-31

5858

今天在用java写GraphX项目时发现print一个VertexRDD十分困难，遇到了说lambda 返回类型不一致，print的为void，但forEach的返回值应该为scala.runtime.BoxedUnit，想到将RDD转为JavaRDD进行print，但没找到答案，后来乱点的时候发现有个toJavaRDD()函数，返回一个JavaRDD，同理，将JavaRDD转换为RDD的时候点出

pandas dataframe to rdd

weixin_30764137的博客

03-25

485

import pandas as pd frompyspark.sqlimportSQLContext frompysparkimportSparkContext frompyspark.sqlimportSparkSession sc=SparkContext()#连接spark sqlContest=SQLContext(sc)#连接sparksq...

spark: RDD与DataFrame之间的相互转换