关掉别看了,再学就秃啦!
码龄4年
关注
提问 私信
  • 博客:45,652
    社区:1
    45,653
    总访问量
  • 56
    原创
  • 2,331,247
    排名
  • 1,526
    粉丝
  • 7
    铁粉
IP属地以运营商信息为准,境内显示到省(区、市),境外显示到国家(地区)
IP 属地:江苏省
  • 加入CSDN时间: 2021-03-27
博客简介:

YYDS_emmm的博客

查看详细资料
个人成就
  • 获得24次点赞
  • 内容获得20次评论
  • 获得88次收藏
  • 代码片获得208次分享
创作历程
  • 2篇
    2023年
  • 3篇
    2022年
  • 52篇
    2021年
成就勋章
TA的专栏
  • Python
    1篇
  • Kafka
    1篇
  • azkaban
    1篇
  • 数据获取
    6篇
  • Spark
    3篇
  • graphx
  • 脚本
    3篇
  • Flume
  • rdd
  • Scala
    2篇
  • 算子
    1篇
  • SSM
  • sql映射文件
  • 数据迁移
    1篇
  • 方法
    1篇
  • 表结构
    2篇
创作活动更多

超级创作者激励计划

万元现金补贴,高额收益分成,专属VIP内容创作者流量扶持,等你加入!

去参加
  • 最近
  • 文章
  • 代码仓
  • 资源
  • 问答
  • 帖子
  • 视频
  • 课程
  • 关注/订阅/互动
  • 收藏
搜TA的内容
搜索 取消

MapReduce

MapReduce
原创
发布博客 2023.07.11 ·
164 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

解决new Gson().toJson(object) null值不进行转换问题

在对result进行json转换时,new Gson().toJson(result),遇到null值不进行转换问题。使用GsonBuilder创建Gson即可解决,代码如下。
原创
发布博客 2023.04.19 ·
859 阅读 ·
0 点赞 ·
1 评论 ·
1 收藏

Flink练习 当天活跃用户

Flink求当天uv
原创
发布博客 2022.09.30 ·
895 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

Flink工程 pom.xml

pom.xml
原创
发布博客 2022.09.30 ·
542 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

HIVE小文件合并

代码】HIVE小文件合并。
原创
发布博客 2022.08.11 ·
548 阅读 ·
0 点赞 ·
0 评论 ·
1 收藏

Python numpy工具集

Python numpy工具集numpy 是居于多维数组,进行处理和计算的工具集创建矩阵import numpy as npnp.array((...)|[....])np.array(dataframe.select(...).collect())#指定区间np.arrange([begin=0,end=10,step=5]) # 不包含end,开始、步长可以不设置 np.arrange(0,10,5) => [0,5] np.arrange(0,10) =>
原创
发布博客 2021.09.17 ·
283 阅读 ·
1 点赞 ·
0 评论 ·
0 收藏

spark中coalesce、repartition和partitionBy的区别

spark中coalesce、repartition和partitionBy的区别coalescefalse:不产生 shuffletrue:产生 shuffle如果重分区的数量大于原来的分区数量,必须设置为 true,否则分区数不变增加分区会把原来的分区中的数据随机分配给设置的分区个数repartitionrepartition实际上就是coalescerepartition(int n) = coalesce(int n, true),也就是说,repartition默认就实现了s
原创
发布博客 2021.09.13 ·
799 阅读 ·
1 点赞 ·
2 评论 ·
3 收藏

ClickHouse的表引擎

ClickHouse的表引擎表引擎是 ClickHouse 的一大特色。可以说, 表引擎决定了如何存储表的数据。 包括:数据的存储方式和位置,写到哪里以及从哪里读取数据。支持哪些查询以及如何支持。 并发数据访问。索引的使用(如果存在)。是否可以执行多线程请求。 数据复制参数。表引擎的使用方式就是必须显式在创建表时定义该表使用的引擎,以及引擎 使用的相关参数。特别注意:引擎的名称大小写敏感。分类:Log 系列表引擎TinyLog 是 Log 系列引擎中功能简单、性能较低的引擎。它的存
原创
发布博客 2021.09.07 ·
513 阅读 ·
1 点赞 ·
2 评论 ·
0 收藏

Python3.6.6 安装

Python3.6.6 安装#安装python 依赖yum install openssl-devel bzip2-devel expat-devel gdbm-devel readline-devel sqlite-devel#解压重命名tar -zxvf Python-3.6.6.tgz -C /opt/software/python/cd /opt/software/pythonmv Python-3.6.6/ python366#编译cd /opt/software/python/p
原创
发布博客 2021.09.05 ·
699 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

在Hive中使用自定义UDF

在Hive中使用自定义UDF1. pom.xml文件中增加Hive包的依赖<dependency> <groupId>org.apache.hive</groupId> <artifactId>hive-exec</artifactId> <version>1.1.0</version></dependency>2. Java示例代码如下:package com.utils;import o
原创
发布博客 2021.09.05 ·
784 阅读 ·
0 点赞 ·
0 评论 ·
2 收藏

FlinkSQL 整合 Hive

FlinkSQL 整合 Hive介绍Flink 从 1.9 开始支持集成 Hive,不过 1.9 版本为 beta 版,不推荐在生产环境 中使用。在 Flink1.10 版本中,标志着对 Blink 的整合宣告完成,对 Hive 的集成 也达到了生产级别的要求。这里使用的 Flink 是 1.13.0,Hive 是 3.1.2。Flink 与 Hive 的集成方式Flink 与 Hive 的集成主要体现在以下两个方面:1.持久化元数据 Flink 利 用 Hive 的 MetaStore 作
原创
发布博客 2021.09.05 ·
2493 阅读 ·
1 点赞 ·
1 评论 ·
3 收藏

Flink 学习总结

Flink 学习总结Flink特点高吞吐、低延迟、高性能支持 Event Time支持有状态的计算高度灵活的窗口计算支持轻量级分布式快照CheckpointsFlink和SparkStream对比♥♥♥本质:SparkStream 是以批处理技术为根本,将数据切成一个一个微小的批次从而实现流式处理(伪流处理)Flink 是完全的流式处理,只要数据一来,就会马上对其进行处理数据模型:Spark采用RDD,SparkStreaming中的DStream也就是一组一组的小批次RD
原创
发布博客 2021.09.02 ·
1684 阅读 ·
3 点赞 ·
1 评论 ·
7 收藏

Flink学习代码实。。。。。。。。。。。

发布资源 2021.09.02 ·
zip

Flink 的优化

Flink 的优化配置进程参数操作场景Flink on YARN 模式下,有 JobManager 和 TaskManager 两种进程。在任务调 度和运行的过程中,JobManager 和 TaskManager 承担了很大的责任。 因而 JobManager 和 TaskManager 的参数配置对 Flink 应用的执行有着很大的 影响意义。用户可通过如下操作对 Flink 集群性能做优化。操作步骤(1)配置 JobManager 内存 JobManager 负责任务的调度,以及 TaskM
原创
发布博客 2021.09.01 ·
804 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

Spark Flink jar包依赖

Spark Flink jar包依赖Spark <properties> <scala.version>2.12.10</scala.version> </properties><dependencies> <dependency> <groupId>org.scala-lang</groupId> <artifactId>scala-library
原创
发布博客 2021.09.01 ·
478 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

Flink 的状态一致性

Flink 的状态一致性什么是状态一致性有状态的流处理,每个算子任务都可以有自己的状态。所谓的状态一致性, 其实就是我们所说的计算结果要保证准确。一条数据不应该被丢失,也不应该被 重复计算。在遇到故障时可以恢复状态,恢复以后得重新计算,结果应该也是完 全正确的。状态一致性的分类At-Most-Once(最多一次):当任务故障时,最简单的做法就是什么都不干,既不恢复丢失的数据,也不 重复数据。最多处理一次事件。数据可能会丢失。但是处理的速度快。At-Least-Once(至少一次) :在大多数的
原创
发布博客 2021.08.31 ·
439 阅读 ·
1 点赞 ·
0 评论 ·
1 收藏

BroadcastState

BroadcastStatepackage org.example.broadcast_joinimport java.sql.{Connection, DriverManager, PreparedStatement}import com.alibaba.fastjson.JSONimport org.apache.flink.api.common.state.{MapStateDescriptor, ReadOnlyBroadcastState}import org.apache.flin
原创
发布博客 2021.08.31 ·
320 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

Flink的时间特性和窗口计算

Flink的时间特性和窗口计算时间特性在 TableAPI 或者 SQL 要使用基于时间的操作,需要定义相关的时间语义和时 间数据来源的信息。所以,Table 可以提供一个额外的逻辑上的时间字段,用于 在表处理程序中,指示时间和访问相应的时间戳。时间属性,可以是每个表 schema 的一部分。一旦定义了时间属性,它就 可以作为一个字段引用,并且可以在基于时间的操作中使用。时间属性的行为类 似于常规时间戳,可以访问,并且进行计算。定义处理时间(Processing Time)处理时间语义下,允许表处
原创
发布博客 2021.08.31 ·
836 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

Flink中 Table 和 DataStream 的相互转换

Flink中 Table 和 DataStream 的相互转换创建表环境 val bsEnv = StreamExecutionEnvironment.getExecutionEnvironment bsEnv.setParallelism(1) val bsSettings = EnvironmentSettings.newInstance().useBlinkPlanner().inStreamingMode().build() val bsTableEnv = Stream
原创
发布博客 2021.08.31 ·
948 阅读 ·
0 点赞 ·
0 评论 ·
1 收藏

TableAPI和FlinkSQL的两种Connect

TableAPI和FlinkSQL的两种Connect依赖:<properties> <scala.version>2.12.10</scala.version> <mysql.version>8.0.11</mysql.version> <flink.version>1.13.0</flink.version> <encoding>UTF-8</encoding>
原创
发布博客 2021.08.31 ·
540 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏
加载更多