pyspark读取mongo格式混乱，读取列缺失问题解决

SLUMBER_PARTY_

已于 2023-07-20 12:18:13 修改

阅读量281

点赞数

分类专栏：大数据文章标签： pyspark

于 2023-07-20 12:16:57 首次发布

本文链接：https://blog.csdn.net/nanfeizhenkuangou/article/details/131827496

版权

大数据专栏收录该内容

21 篇文章 2 订阅

订阅专栏

**问题1：**直接读mongo写入hdfs，可能会发现少了几列。一般这些列空值特别多。pyspark读取mongo的schema是自动推断的，随机筛选1000行推断schema，如果这一千行都没有某列，那么这列就缺失了。

**问题2：**mongo里的数据可能有点脏，某列A可能既有long int格式，又有string格式。如果pyspark自动推断schema，可能识别成string格式，然后它遇到了少量的long int格式，就报错了，说string格式无法转换为long int。

解决办法是，自己定义schema，而不是自动推断。

以下是chatgbt写出的代码

from pyspark.sql import SparkSession
from pyspark.sql.types import StructType, StructField, StringType, IntegerType

# 创建SparkSession
spark = SparkSession.builder.appName("Read from MongoDB").getOrCreate()

# 定义部分列的模式
schema = StructType([
    StructField("name", StringType(), nullable=False),
    StructField("age", IntegerType(), nullable=True)
])

# 读取MongoDB中的数据并应用模式
df = spark.read.format("mongo") \
    .option("spark.mongodb.input.uri", "mongodb://localhost/db.collection") \
    .schema(schema) \
    .load()

# 显示DataFrame数据
df.show()