BIT_666
码龄4年
  • 381,766
    被访问
  • 268
    原创
  • 3,149
    排名
  • 6,562
    粉丝
  • 662
    铁粉
关注
提问 私信

个人简介:天道酬勤

IP属地以运营商信息为准,境内显示到省(区、市),境外显示到国家(地区)
IP 属地:北京市
  • 加入CSDN时间: 2018-03-20
博客简介:

BITDDD小栈

博客描述:
推荐算法工程师,日常使用 Spark、Flink、Python 以及其他大数据相关
查看详细资料
  • 6
    领奖
    总分 2,793 当月 98
个人成就
  • 大数据领域优质创作者
  • 博客专家认证
  • 获得312次点赞
  • 内容获得264次评论
  • 获得1,137次收藏
创作历程
  • 80篇
    2022年
  • 98篇
    2021年
  • 52篇
    2020年
  • 9篇
    2019年
  • 29篇
    2018年
成就勋章
TA的专栏
  • Spark
    42篇
  • Flink
    24篇
  • Hive
    17篇
  • Hadoop
    9篇
  • Keras
    22篇
  • Scala
    91篇
  • Machine Learning
    38篇
  • Tensorflow
    32篇
  • 算法
    33篇
  • GraphEmbedding
    6篇
  • 异常解决
    47篇
  • Go
    1篇
  • Redis
    6篇
  • MapReduce
    3篇
  • Python
    41篇
  • kafka
    4篇
  • Java
    21篇
  • Hbase
    3篇
  • Streaming
    5篇
  • Shell
    19篇
  • Git
    4篇
  • Executor
    8篇
  • 机器学习数学原理
    18篇
  • 西瓜书
    6篇
  • 数据结构
    7篇
  • 图像处理
    2篇
  • 常用语法
    63篇
兴趣领域 设置
  • Java
    javamavenintellij-idea
  • 数据结构与算法
    算法数据结构线性回归链表贪心算法动态规划排序算法leetcode
  • 大数据
    sqlmysqlhbasehadoophiverediszookeepersparkkafkaflinkhdfsmapreduce
  • 最近
  • 文章
  • 资源
  • 问答
  • 帖子
  • 视频
  • 课程
  • 关注/订阅/互动
  • 收藏
搜TA的内容
搜索 取消

Scala / Java - 采用 MD5 加盐 实现 id 均匀分组

大量 id 场景下经常需要通过 id 进行 AB Test,最常见的就是使用尾号 hash 进行分组,但是由于 id 生成规则以及其他因素,按照尾号分组往往会造成 id 不匀,从而导致 AB Test 效果受影响,所以下文采用 md5 加盐 Hash 的方式,得到更均匀的分组与 AB Test 效果。......
原创
发布博客 2022.08.05 ·
64 阅读 ·
0 点赞 ·
0 评论

Flink / Scala - 使用 RedisSink 存储数据

现在有一批流数据想要存储到 Redis 中,离线可以使用 Spark +foreach 搞定,由于是多流 join 且带状态,所以 SparkStreaming + foreach 也无法实现,而 Flink 不支持 foreach 操作触发 execute,这里采用 RedisSink 代替实现foreach 逻辑。...
原创
发布博客 2022.08.04 ·
31 阅读 ·
0 点赞 ·
0 评论

Flink / Scala - 使用 CountWindow 实现按条数触发窗口

CountWindow 数量窗口分为滑动窗口与滚动窗口,类似于之前 TimeWindow 的滚动时间与滑动时间,这里滚动窗口不存在元素重复而滑动窗口存在元素重复的情况,下面 demo 场景为非重复场景,所以将采用滚动窗口。......
原创
发布博客 2022.08.02 ·
106 阅读 ·
0 点赞 ·
0 评论

Python - 定时自动获取 Bing 首页壁纸

Bing 首页的壁纸好看且每日更新,下面介绍如何使用 python 每日自动获取壁纸并保存。
原创
发布博客 2022.07.29 ·
215 阅读 ·
0 点赞 ·
0 评论

LeetCode / Scala - 无重复字符最长子串 ,最长回文子串

​LeetCode 里有一类字符子串问题,这里主要分析无重复字符的最长子串与最长回文子串,总结相关方法。
原创
发布博客 2022.07.29 ·
63 阅读 ·
1 点赞 ·
0 评论

NoClassDefFoundError - hadoop/crypto/key/KeyProviderTokenIssuer && hadoop/fs/BatchListingOperations

NoClassDefFoundError - hadoop/crypto/key/KeyProviderTokenIssuer && hadoop/fs/BatchListingOperations 报错解决与总结。
原创
发布博客 2022.07.28 ·
200 阅读 ·
0 点赞 ·
0 评论

Flink - checkpoint Failure reason: Not all required tasks are currently running

Flink 程序增加 readFile 生成文件流后,最初运行期间 CheckPoint 存储没有问题,待文件流 Finished 后 CheckPoint 存储报错: checkpoint Failure reason: Not all required tasks are currently running,下面分析并解决下。
原创
发布博客 2022.07.27 ·
265 阅读 ·
0 点赞 ·
2 评论

LeetCode / Scala - 两数,三数,四数,N数之和

​LeetCode 里分别有两数之和,三数之和,四数之和,主要实现方法为 Python,Java,C++,下面使用 scala 分别实现。
原创
发布博客 2022.07.26 ·
46 阅读 ·
0 点赞 ·
0 评论

连续观察了两晚,每天半夜粉丝数计算期间,这里的 getOrElse 是不没了,默认 null

发布动态 2022.07.25

Flink - 读取 Parquet 文件 By Scala / Java

parquet 文件常见与 Flink、Spark、Hive、Streamin、MapReduce 等大数据场景,通过列式存储和元数据存储的方式实现了高效的数据存储与检索,下面介绍 Flink 场景下如何读取 Parquet。
原创
发布博客 2022.07.21 ·
305 阅读 ·
1 点赞 ·
3 评论

Goland / Mac - 安装 & HelloWorld Demo

本文将安装 go 语言常用编辑器 GoLand,其与 idea、pycharm 同属JetBrains 旗下,由于突破试用的限制,下面教程主要安装 2019 版 Goland + Go 1.15.x 版本,有高版本编译器或高版本 Go 语言需求的同学可以忽略后续,如果只是入门熟悉操作可以参考下面教程。...
原创
发布博客 2022.07.19 ·
248 阅读 ·
0 点赞 ·
0 评论

Scala areOnJava8() 代码形式

发布问题 2022.07.18 ·
0 回答

Flink - NoSuchMethodError: com.twitter.chill.java.Java8ClosureRegistrar.areOnJava8()Z

使用 Flink 1.13.1 + scala 2.11.12 的组合进行 Flink 本地测试是,报错.NoSuchMethodError: com.twitter.chill.java.Java8ClosureRegistrar.areOnJava8()Z,经过前面多次的 noSuchMethod 的折磨,现在已经轻车熟路,直接开始排查。...............
原创
发布博客 2022.07.18 ·
249 阅读 ·
2 点赞 ·
1 评论

Redis - Redis List 功能详解与工业应用

Redis 列表 List 是简单的字符串列表,按照插入顺序排序,一个列表最多可以包含 232- 1 个元素 (4294967295, 每个列表超过40亿个元素)。下面介绍下 Redis List 常用功能以及在工业场景下 Redis List 的几种使用场景。......
原创
发布博客 2022.07.15 ·
211 阅读 ·
0 点赞 ·
0 评论

Spark - RangePartitioner rangeBounds 生成 源码分析 & 实践

本文主要探索RangePartitioner 源码中rangeBounds 的生成,rangeBounds 用于对 key 进行范围分区,通过源码可以学习到如何在分布式大数据下采样并获取近似均分的范围。
原创
发布博客 2022.07.14 ·
64 阅读 ·
0 点赞 ·
0 评论

Spark - PartitionPruningRDD 详解

查看 RangePartition 的源码时发现内部用到了PartitionPruningRDD,翻译为分区修剪 RDD,下面简单介绍一下PartitionPruningRDD 的使用。
原创
发布博客 2022.07.12 ·
281 阅读 ·
0 点赞 ·
0 评论

Spark - Illegal pattern component: XXX 与org.apache.commons.lang3.time.FastDateFormat incompatible

使用 sparkSession 读文件时出现java.lang.IllegalArgumentException: Illegal pattern component: XXX 报错,解决后又出现java.io.InvalidClassException: org.apache.commons.lang3.time.FastDateFormat; local class incompatible: stream classdesc serialVersionUID = 2,下面解决一下。...
原创
发布博客 2022.07.11 ·
309 阅读 ·
0 点赞 ·
0 评论

Shell - 常用压缩文件处理 zip、gz、tar、rar

使用 linux 工作中经常遇到 zip,gz,tar 相关的压缩文件,下面整理下几种压缩文件的常用方法。
原创
发布博客 2022.07.11 ·
333 阅读 ·
0 点赞 ·
0 评论

2022 年最新博客专家申请流程

2022年 CSDN 最新博客专家申请流程~
原创
发布博客 2022.07.08 ·
93 阅读 ·
0 点赞 ·
0 评论

来C站的第四年,终于申请通过博客专家了不过问了下官方大大月度专属奖励已经没了,后续会优化该页面默默搬砖,继续奋斗吧

发布动态 2022.07.08
加载更多