自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(5)
  • 收藏
  • 关注

原创 Spark编程与SparkSQL结构化数据文件处理

1.Spark SQL是Spark用来处理结构化数据的一个模块,它提供了一个编程抽象结构叫做DataFrame的数据模型(即带有Schema信息的RDD),Spark SQL作为分布式SQL查询引擎,让用户可以通过SQL和三种方式实现对结构化数据的处理。2.Spark SQL主要提供了以下三个功能ØSpark SQL可从各种结构化数据源中读取数据,进行数据分析。ØSpark SQL包含行业标准的JDBC和ODBC。

2024-05-13 19:43:02 2056 1

原创 spark 将RDD转DataFrame

创建DataFrame对象person需求:RDD转DataFrame且表头为id,name,age。1.在集群创建/spark目录,将创建的person.txt文件放入/spark目录下。2.进入spark,读取文件创建RDD。3.将RDD转换为DataFrame。person.txt内容如下。

2024-05-10 08:50:03 141

原创 spark编译打包步骤

2.定义jar包名称,双击右侧栏以“output”为后缀的文件到左侧,表示已添加工程至jar包中。6.将windows本地文件路径中保存的jar包拖入到xshell指定路径下。3.选择菜单栏中的“Build”->“Build Artifacts”选项。4.在弹窗中选择“yjw”->“Build”选项。7.输入命令提交Spark程序到集群。5.完成后将出现/out目录。

2024-05-10 08:41:16 259 1

原创 spark中部分关于RDD的转换操作

方法-将原RDD里和参数RDD里相同的元素去掉。使用键值对RDD的keys和values方法。使用values方法返回一个仅包含值的RDD。使用keys方法返回一个仅包含键的RDD。方法-求两个RDD的笛卡尔积。方法-求两个RDD交集。

2024-04-02 15:42:44 615

原创 关于spark的一些内容

与粗粒度模式一样,应用程序启动时,先会启动executor,但每个executor占用资源仅仅是自己运行所需的资源,不需要考虑将来要运行的任务,之后,mesos会为每个executor动态分配资源,每分配一些,便可以运行一个新任务,单个Task运行完之后可以马上释放对应的资源。存储和基础设施:Elasticsearch,MongoDB,Kafka,delta lake,kubernetes,Airflow,Parquet,SQL Server,cassandra,orc。

2024-03-04 17:38:11 1186

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除