大数据
文章平均质量分 81
Li_yi_chao
这个作者很懒,什么都没留下…
展开
-
pyflink作业提交的踩坑过程,看完少走两个星期弯路
部署环境JDK 1.8+ (1.8.0_211)Maven 3.x (3.2.5)Scala 2.11+ (2.12.0)Python 3.5+ (3.7.6)Git 2.20+ (2.20.1)pyflink置于High-level 的 TableAPI/SQL 和有状态的 DataStream API之上的。Py4J 作为 Java VM 和 Python VM 之间通讯的桥梁。用户自定义函数(UDF): 集成 Python 生态( Python 类库)到...原创 2021-04-30 17:27:57 · 2919 阅读 · 6 评论 -
与flink打交道(2)——PyFlink的
为什么PyFlink?pyflink顾名思义,Pythoh 生态与大数据生态有密不可分的关系,调查发现大多数 Python 用户正在解决 ”数据分析“,”机器学习“的问题,那么 Python 生态和大数据生态结合,对 Python 生态一个特别重要到意义就是单机到分布式的能力增强,这是大数据时代海量数据分析对 Python 生态的强需求。PyFlink 的核心目标将 Flink 能力输出到 Python 用户,进而可以让 Python 用户使用所有的 Flink 能力。 将 Python原创 2021-03-19 18:58:36 · 602 阅读 · 0 评论 -
与Flink打交道(1)——初识
Flink是一个面向分布式数据流处理和批量数据处理的开源计算平台。和Spark类似,两者都希望提供一个统一功能的计算平台给用户,都在尝试建立一个统一的平台以运行批量,流式,交互式,图处理,机器学习等应用。来历:2014年后迅速成为Apache 的顶级项目之一特点:流处理:低延迟、Exactly-once保证; 批处理:高吞吐、高效处理优势:支持高度灵活的窗口操作(滑动、滚动、session窗口) 支持有状态计算的Exactiy-once 语义 提供DataStream API和Da...原创 2021-03-12 09:05:22 · 130 阅读 · 0 评论