pyspark 读取csv文件创建DataFrame的两种方法

最新推荐文章于 2023-07-27 11:11:57 发布

大胖头leo

最新推荐文章于 2023-07-27 11:11:57 发布

阅读量1.1k

点赞数

分类专栏： PySpark学习日志

本文链接：https://blog.csdn.net/a8131357leo/article/details/106838681

版权

PySpark学习日志专栏收录该内容

40 篇文章 3 订阅

订阅专栏

方法一：用pandas辅助

from pyspark import SparkContext 
from pyspark.sql import SQLContext 
import pandas as pd 
sc = SparkContext()
sqlContext=SQLContext(sc) 
df=pd.read_csv(r'game-clicks.csv') 
sdf=sqlc.createDataFrame(df)

方法二：纯spark

from pyspark import SparkContext 
from pyspark.sql import SQLContext
sc = SparkContext()
sqlContext = SQLContext(sc)
sqlContext.read.format('com.databricks.spark.csv').options(header='true', inferschema='true').load('game-clicks.csv')

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

大胖头leo

关注关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
pyspark 读取csv文件创建DataFrame的两种方法

方法一：用pandas辅助from pyspark import SparkContext from pyspark.sql import SQLContext import pandas as pd sc = SparkContext()sqlContext=SQLContext(sc) df=pd.read_csv(r'game-clicks.csv') sdf=sqlc.createDataFrame(df)方法二：纯sparkfrom pyspark import Spa
复制链接

扫一扫