hy1568786
码龄7年
关注
提问 私信
  • 博客:114,193
    社区:7
    114,200
    总访问量
  • 78
    原创
  • 909,529
    排名
  • 30
    粉丝
  • 0
    铁粉

个人简介:码中问道

IP属地以运营商信息为准,境内显示到省(区、市),境外显示到国家(地区)
IP 属地:北京市
  • 加入CSDN时间: 2017-11-24
博客简介:

hyy_blog

博客描述:
大数据,python,java,技术分享,学习心得
查看详细资料
个人成就
  • 获得42次点赞
  • 内容获得15次评论
  • 获得298次收藏
创作历程
  • 3篇
    2023年
  • 5篇
    2022年
  • 12篇
    2021年
  • 76篇
    2020年
  • 24篇
    2019年
  • 1篇
    2018年
成就勋章
TA的专栏
  • AB
    1篇
  • flink
    19篇
  • hbase
    1篇
  • java
    5篇
  • 杂思
    2篇
  • flink项目
    4篇
  • springboot
    1篇
  • hive
    2篇
  • flume
  • akka
    1篇
  • yarn
    3篇
  • 笔记
    1篇
  • kafka
    1篇
  • 算法
    3篇
  • zookeeper
    1篇
  • 设计模式
    1篇
  • 图像处理入门
    2篇
  • 大数据
    16篇
  • spark
    19篇
  • hadoop
    8篇
  • 机器学习
    1篇
  • 人工智能
    1篇
  • linux
    3篇
  • python学习
    2篇
兴趣领域 设置
  • 大数据
    hadoophivestormsparketl
创作活动更多

超级创作者激励计划

万元现金补贴,高额收益分成,专属VIP内容创作者流量扶持,等你加入!

去参加
  • 最近
  • 文章
  • 代码仓
  • 资源
  • 问答
  • 帖子
  • 视频
  • 课程
  • 关注/订阅/互动
  • 收藏
搜TA的内容
搜索 取消

distinct为什么比group by慢

2.spark sql中的group by 在优化时=reducebykey。1.spark core中,网络传输的数据少。distinct 大概率是groupby。
原创
发布博客 2023.10.24 ·
210 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

AB实验--科学增长

AB实验
原创
发布博客 2023.10.14 ·
243 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

linux安装lightbgm异常

【代码】linux安装lightbgm异常。
原创
发布博客 2023.10.13 ·
353 阅读 ·
1 点赞 ·
0 评论 ·
0 收藏

spark api submit

参考::Spark2.3(四十):如何使用java通过yarn api调度spark app,并根据appId监控任务,关闭任务,获取任务日志 - cctext - 博客园
原创
发布博客 2022.04.06 ·
77 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

flinksql time

FlinkSql指定时间语义 - 从不吃鱼的猫 - 博客园
转载
发布博客 2022.03.07 ·
183 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

画像用户扩展

参考:Lookalike 技术调研 - 简书
转载
发布博客 2022.02.10 ·
136 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

spark的透视表:pivot

参考:spark中的透视函数pivot - 尤灯塔 - 博客园
转载
发布博客 2022.01.27 ·
397 阅读 ·
0 点赞 ·
0 评论 ·
1 收藏

scala伴生对象的反射

private val currentClass = Class.forName("com.compute.biz.clue.streaming.SyncClueStreamingFunctions$")private val currentObj = currentClass.getField("MODULE$").get(null)// 所有方法的map,(methodName->method)private val methodMap = currentClass.getDeclared.
原创
发布博客 2022.01.25 ·
345 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

spark ML

参考:https://www.cnblogs.com/nxf-rabbit75/category/1572700.html?page=1
转载
发布博客 2021.09.09 ·
86 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

flink的waterMark

combinebykey && aggregatebykey
转载
发布博客 2021.07.01 ·
102 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

一个流和百亿级的表的join

以spark为例:分治 val kafkaManager = new KafkaManager(kafkaParams) val kafkaDirectStream = kafkaManager.createDirectStream[String, String, StringDecoder, StringDecoder](ssc,kafkaParams,topicSet) val res = kafkaDirectStream .filter(l => l._2.c...
原创
发布博客 2021.06.09 ·
342 阅读 ·
0 点赞 ·
2 评论 ·
0 收藏

task调优

task输入倾斜调优:https://www.jianshu.com/p/06a4b2f50940
原创
发布博客 2021.06.02 ·
115 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

spark数据倾斜

https://blog.csdn.net/kaede1209/article/details/81145560
转载
发布博客 2021.05.31 ·
89 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

hive对复杂数据结构的处理map,array,struct

参考blog:https://zhuanlan.zhihu.com/p/150361645
转载
发布博客 2021.04.30 ·
178 阅读 ·
0 点赞 ·
1 评论 ·
0 收藏

posexplode

hive的高级函数的使用 参考blog:https://www.cnblogs.com/-courage/p/14122106.html
原创
发布博客 2021.04.30 ·
214 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

spark的算子中定义一些需要的函数

参考:https://www.jianshu.com/p/780ae7c95bde
转载
发布博客 2021.03.04 ·
140 阅读 ·
0 点赞 ·
1 评论 ·
0 收藏

目标检索偶感

目标检索:定义:目标生成的特征是唯一的,在各个层次中都会携带这一特征。卷积:就是把这一特征,以新的方式展示出来,方便计算,存储,传输,增强等最后:经过反卷积,解出特征,在与目标进行比对,选择。...
原创
发布博客 2021.02.13 ·
224 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

spark的获取文件名称

spark的获取文件名称:rdd中获取http://cn.voidcc.com/question/p-yhavvflg-bhx.htmldf中获取还有一个是通过使用functions.input_file_name
原创
发布博客 2021.02.08 ·
542 阅读 ·
0 点赞 ·
0 评论 ·
1 收藏

特殊的hadoop   

特殊的hadoop 1.没有reducer的demo: job.setNumReduceTasks(0);https://blog.csdn.net/boonya/article/details/54630808?ops_request_misc=%257B%2522request%255Fid%2522%253A%2522161242952716780264021789%2522%252C%2522scm%2522%253A%252220140713.130102334.pc%25...
原创
发布博客 2021.02.04 ·
117 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

sparksql连接kafka

参考:https://www.cnblogs.com/yin-fei/p/10748505.html
原创
发布博客 2021.01.11 ·
937 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏
加载更多