使用python编写csv转parquet脚本

最新推荐文章于 2025-04-10 13:25:21 发布

vah101

最新推荐文章于 2025-04-10 13:25:21 发布

阅读量5.2k

点赞数

分类专栏：大数据

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/vah101/article/details/78063213

版权

大数据专栏收录该内容

36 篇文章

订阅专栏

from pyspark import SparkContext
from pyspark.sql import SQLContext
from pyspark.sql.types import *

def parse(line):
items = line.split(",")
return (long(items[0]), items[1], float(items[2]), int(items[3]), float(items[4]), float(items[5]))

if __name__ == "__main__":
sc = SparkContext(appName="CSV2Parquet")
sqlContext = SQLContext(sc)

schema = StructType([
StructField("col1", LongType(), True),
StructField("col2", StringType(), True),
StructField("col3", DoubleType(), True),
StructField("col4", IntegerType(), True),
StructField("col5", DoubleType(), True),
StructField("col6", DoubleType(), True)])

rdd = sc.textFile("./input.csv").map(parse)
df = sqlContext.createDataFrame(rdd, schema)
df.write.parquet('./input-parquet')

博客等级

码龄18年

397
原创

277
点赞

765
收藏

238
粉丝

关注

私信

热门文章

分类专栏

c++11 3篇
spring boot 6篇
GPU 3篇
golang 6篇
Linux开发 129篇
Linux系统管理 96篇
MFC 5篇
python 32篇
QT 21篇
Windows开发 12篇
Android开发 1篇
大数据 36篇
sinatra 2篇
k8s 86篇

展开全部收起

最新评论

vxbox导入虚拟机报错VERR_SUP_VP_UNEXPECTED_VALID_PATH_COUNT
z999_123: 谢谢安装VirtualBox-6.0.24-139119-Win.exe解决这个报错
Win11系统下安装Deepspeed报错处理
草莓不苦: 依然报错 [code=python] (venv) PS E:\pythonProject\ViTLP\DeepSpeed> set DS_BUILD_AIO=0 (venv) PS E:\pythonProject\ViTLP\DeepSpeed> set DS_BUILD_OPS=0 (venv) PS E:\pythonProject\ViTLP\DeepSpeed> python setup.py install [2024-12-06 14:27:05,026] [WARNING] [real_accelerator.py:174:get_accelerator] Setting accelerator to CPU. If you have GPU or other accelerator, we were unable to detect it. [2024-12-06 14:27:05,039] [INFO] [real_accelerator.py:219:get_accelerator] Setting ds_accelerator to cpu (auto detect) [2024-12-06 14:27:05,143] [WARNING] [real_accelerator.py:174:get_accelerator] Setting accelerator to CPU. If you have GPU or other accelerator, we were unable to detect it. [2024-12-06 14:27:05,144] [INFO] [real_accelerator.py:219:get_accelerator] Setting ds_accelerator to cpu (auto detect) test.c LINK : fatal error LNK1181: 无法打开输入文件“aio.lib” [/code]
Win11系统下安装Deepspeed报错处理
草莓不苦: 依然报错 [code=python] (venv) PS E:\pythonProject\ViTLP\DeepSpeed> set DS_BUILD_AIO=0 (venv) PS E:\pythonProject\ViTLP\DeepSpeed> set DS_BUILD_OPS=0 (venv) PS E:\pythonProject\ViTLP\DeepSpeed> python setup.py install [2024-12-06 14:27:05,026] [WARNING] [real_accelerator.py:174:get_accelerator] Setting accelerator to CPU. If you have GPU or other accelerator, we were unable to detect it. [2024-12-06 14:27:05,039] [INFO] [real_accelerator.py:219:get_accelerator] Setting ds_accelerator to cpu (auto detect) [2024-12-06 14:27:05,143] [WARNING] [real_accelerator.py:174:get_accelerator] Setting accelerator to CPU. If you have GPU or other accelerator, we were unable to detect it. [2024-12-06 14:27:05,144] [INFO] [real_accelerator.py:219:get_accelerator] Setting ds_accelerator to cpu (auto detect) test.c LINK : fatal error LNK1181: 无法打开输入文件“aio.lib” [/code]
Win11系统下安装Deepspeed报错处理
草莓不苦: 依然报错 [code=python] (venv) PS E:\pythonProject\ViTLP\DeepSpeed> set DS_BUILD_AIO=0 (venv) PS E:\pythonProject\ViTLP\DeepSpeed> set DS_BUILD_OPS=0 (venv) PS E:\pythonProject\ViTLP\DeepSpeed> python setup.py install [2024-12-06 14:27:05,026] [WARNING] [real_accelerator.py:174:get_accelerator] Setting accelerator to CPU. If you have GPU or other accelerator, we were unable to detect it. [2024-12-06 14:27:05,039] [INFO] [real_accelerator.py:219:get_accelerator] Setting ds_accelerator to cpu (auto detect) [2024-12-06 14:27:05,143] [WARNING] [real_accelerator.py:174:get_accelerator] Setting accelerator to CPU. If you have GPU or other accelerator, we were unable to detect it. [2024-12-06 14:27:05,144] [INFO] [real_accelerator.py:219:get_accelerator] Setting ds_accelerator to cpu (auto detect) test.c LINK : fatal error LNK1181: 无法打开输入文件“aio.lib” [/code]
Win11系统下安装Deepspeed报错处理
草莓不苦: 依然报错：(venv) PS E:\pythonProject\ViTLP\DeepSpeed> set DS_BUILD_AIO=0 (venv) PS E:\pythonProject\ViTLP\DeepSpeed> set DS_BUILD_OPS=0 (venv) PS E:\pythonProject\ViTLP\DeepSpeed> python setup.py install [2024-12-06 14:27:05,026] [WARNING] [real_accelerator.py:174:get_accelerator] Setting accelerator to CPU. If you have GPU or other accelerator, we were unable to detect it. [2024-12-06 14:27:05,039] [INFO] [real_accelerator.py:219:get_accelerator] Setting ds_accelerator to cpu (auto detect) [2024-12-06 14:27:05,143] [WARNING] [real_accelerator.py:174:get_accelerator] Setting accelerator to CPU. If you have GPU or other accelerator, we were unable to detect it. [2024-12-06 14:27:05,144] [INFO] [real_accelerator.py:219:get_accelerator] Setting ds_accelerator to cpu (auto detect) test.c LINK : fatal error LNK1181: 无法打开输入文件“aio.lib”

大家在看

Dify中的Agent策略插件开发例子：以Function Calling为例 664

最新文章

目录

展开全部

收起

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。