自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(4)
  • 收藏
  • 关注

原创 Spark学习记录:Spark SQL编程(2)

一、将RDD转换得到DataFrameRDD=>DataFrame,有三种情况两种方法,分别通过SparkSession对象的createDataFrame方法和RDD的toDF方法,转换生成DataFrame。第一种情况,已知RDD的数据结构,采用createDataFrame()方法生成DataFrame。#假设导入数据集为Data.txt,内容如(Mark,30)#导入相关库from pyspark.sql import Rowfrom pyspark import SparkCon

2022-05-20 01:30:10 504

原创 Spark学习记录:Spark SQL编程(1)

一、Spark SQL的理解。Spark SQL模块就是利用SQL语言,使用Spark框架,实现对结构化数据的处理。Spark SQL提供了一个叫DataFrame的数据模型(即带有Schema信息的RDD)。怎么理解这个DataFrame,就是一个个“有名有姓”,“有定义”的RDD的集合。本身RDD的数据并没有定义,DataFrame带有的Schema信息赋予了RDD中的数据特定的含义。RDD与DataFrame和Pandas模块中的series与DataFrame关系很相似,可以借鉴理解。二、S

2022-05-19 17:50:59 503

原创 Spark学习记录:RDD 编程

Spark学习记录,RDD编程

2022-04-19 23:18:17 1759

原创 学习记录:python获取猫眼信息

不支持爬虫类文章公开发布

2022-04-11 01:59:44 968 1

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除