PySpark中加载schema的几种方式

tzw_cs

已于 2022-03-24 17:11:55 修改

阅读量2.8k

点赞数

分类专栏： Hadoop 文章标签： databricks spark azure

于 2022-03-21 15:52:39 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/tanzhangwen/article/details/123636427

版权

现在组里接的项目主要是在Azure Databricks里面用PySpark写脚本处理数据。而它目前的代码单元测试这一块是完全崩了，其中有几个已经写了的测试例子也无法运行，原因是它会加载avro的schema文件作为目标schema的转化和验证。但是因为处理逻辑的变更已经增加了一些列，可以avro文件并没有一直更新，使得测试无法成功。可是直接编辑avro文件尝试了很多软件或者在线编辑都无法成功，于是就思考替换这里的schema的加载方式。

下面根据网络查阅及整理，找到的几种加载schema的方式如下：

1. 直接声明的方式

        self.src_schema = StructType([
            StructField("value", StringType()),
            StructField("publisher_id", IntegerType()),
            StructField("event_datetime", StringType()),
            StructField("process_datetime", StringType()),
            StructField("dt", StringType())])
        mock_module.SchemaRegistry().pull_schema_from_schema_registry.return_value = self.src_schema

from pyspark.sql.functions import *
from pyspark.sql.types import *
aug_schema = StructType([
  StructF

最低0.47元/天解锁文章

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
PySpark中加载schema的几种方式

现在组里接的项目主要是在Azure Databricks里面用PySpark写脚本处理数据。而它目前的代码单元测试这一块是完全崩了，其中有几个已经写了的测试例子也无法运行，原因是它会加载avro的schema文件作为目标schema的转化和验证。但是因为处理逻辑的变更已经增加了一些列，可以avro文件并没有一直更新，使得测试无法成功。可是直接编辑avro文件尝试了很多软件或者在线编辑都无法成功，于是就思考替换这里的schema的加载方式。下面根据网络查阅及整理，找到的几种加载schema的方式如下：
复制链接

扫一扫

专栏目录

tzw_cs CSDN认证博客专家 CSDN认证企业博客

码龄15年

136: 原创

7万+: 周排名

48万+: 总排名

36万+: 访问

: 等级

4927: 积分

48: 粉丝

42: 获赞

37: 评论

222: 收藏

私信

关注

热门文章

分类专栏

acm/icpc 46篇
linux 7篇
c++/mfc 6篇
Software 9篇
DM 3篇
Java 12篇
c# 12篇
Python 9篇
NLP 7篇
Database 9篇
testing 15篇
Revision Control 1篇
selenium 12篇
Hadoop 10篇
Jenkins 1篇
Design Pattern 1篇

最新评论

Agent建模之Repast建模编程介绍
tzw_cs: 这个你可以去参考repast的官网 https://repast.github.io/index.html 使用文档： https://www2.econ.iastate.edu/tesfatsi/repastsg.htm
Agent建模之Repast建模编程介绍
weixin_46539086: 那您有没有相关代码内容的教程或者网址推荐，我最近参考的论文里只是讲背景、发展，不是很全面
Agent建模之Repast建模编程介绍
tzw_cs: 这是09年的文章了
Agent建模之Repast建模编程介绍
weixin_46539086: 您好，您文章中的链接我都打不开
C#爬取动态网页
tzw_cs: 这个多年没有维护所以不看了不好意思，估计你也不再需要了。回复给类似遇到这个问题的同学一个参考。像这种动态的比较麻烦一般都需要用js执行才能获取到。另外一种方便的办法是浏览器打开Inspect element 然后看Network，再在页面上点击然后看network的url。比如你这个就会有下面request,然后就用httprequest去发送来得到数据的response。还有一种办法是用webdriver之类的模拟人工的工具去点击然后再获取页面元素去解析。 URL: https://s8hwxkltn6.jiandaoyun.com/_/data/dash/list JSON: {appId: "5de0b3e85600ec0006f420f2", entryId: "5f48d400a25baa0006034c28",…} appId: "5de0b3e85600ec0006f420f2" entryId: "5f48d400a25baa0006034c28" filter: {cond: [], rel: "and"} fx_access_token: "5f48d400a25baa0006034c29" fx_access_type: "dash_public" hasCount: false isCountOnly: false limit: 20 skip: 80 sort: [] widgetId: "_widget_1598608578314"

大家在看

“革命性的JavaScript函数发现：重新思考this指向的大胆猜想“ 151

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。