wangfann
码龄14年
关注
提问 私信
  • 博客:25,366
    25,366
    总访问量
  • 11
    原创
  • 1,938,338
    排名
  • 10
    粉丝
  • 0
    铁粉
IP属地以运营商信息为准,境内显示到省(区、市),境外显示到国家(地区)
IP 属地:北京市
  • 加入CSDN时间: 2011-07-12
博客简介:

a80090023的专栏

查看详细资料
个人成就
  • 获得11次点赞
  • 内容获得6次评论
  • 获得51次收藏
创作历程
  • 7篇
    2022年
  • 4篇
    2021年
成就勋章
TA的专栏
  • spark
    1篇
  • udf
    1篇
  • SQL
    2篇
  • Dolphinscheduler
    1篇
  • clickhouse
    1篇
  • BI
    1篇
  • presto
    1篇
兴趣领域 设置
  • 大数据
    hadoophivesparketl
创作活动更多

超级创作者激励计划

万元现金补贴,高额收益分成,专属VIP内容创作者流量扶持,等你加入!

去参加
  • 最近
  • 文章
  • 代码仓
  • 资源
  • 问答
  • 帖子
  • 视频
  • 课程
  • 关注/订阅/互动
  • 收藏
搜TA的内容
搜索 取消

udaf开发小结

udaf开发小结
原创
发布博客 2022.06.30 ·
698 阅读 ·
2 点赞 ·
1 评论 ·
2 收藏

《设计模式》--学习王争设计模式课总结

#设计模式学习##原则单一职责开闭原则:对扩展开放,修改关闭里斯替换:用来指导继承关系中子类该如何设计,子类的设计要保证在替换父类的时候,不改变原有程序的逻辑及不破坏原有程序的正确性。接口隔离控制反转KISS、YAGNI 简单DRY 提高复用迪米特法则:高内聚、松耦合创建型设计模式主要解决“对象的创建”问题,结构型设计模式主要解决“类或对象的组合”问题,那行为型设计模式主要解决的就是“类或对象之间的交互”问题。设计模式要干的事情就是解耦,也就是利用更好的代码结构将一大坨代码拆
原创
发布博客 2022.03.01 ·
358 阅读 ·
0 点赞 ·
0 评论 ·
1 收藏

hive SQL优化总结

1.行过滤尽早尽量过滤数据,减少每个阶段的数据量。例如两个表join,把where筛选条件写到单表子查询里再进行join可减少每个表的读取数据量。2.列裁剪例如某表有a,b,c,d,e五个字段,但是我们只需要a和b,那么请用select a,b from table 而不是select * from table。3.分区裁剪在查询的过程中减少不必要的分区,即尽量指定分区,这一块hive分区表严格模式有强制措施。4.减少job数巧妙的使用 UNION ALL 减少 job 数量
原创
发布博客 2022.02.28 ·
1750 阅读 ·
0 点赞 ·
0 评论 ·
13 收藏

使用groupingsets函数优化数仓离线计算性能表现、原理分析及避坑指南

1.上线该优化后任务性能表现任务执行时长:任务一:该任务为wps_android国内应用的天任务耗时截图,执行时长缩短3-4倍。该任务是天任务中最长的任务,也就是说以现在的任务流程部署情况,整体天任务执行时长缩短3倍以上。任务二:该任务为国内应用的周任务耗时截图,执行时长缩短3-4倍。任务三:该任务为数仓单个子任务中耗时最长的任务(30天活跃任务),执行时间缩短5-6倍。其中任务的执行时间包括执行hive sql查询的时间+数据写入RDS的时间。任务四:该任务为数仓月任务..
原创
发布博客 2022.02.28 ·
2184 阅读 ·
0 点赞 ·
0 评论 ·
5 收藏

使用grouping sets语法与拆分sql查询时间对比

背景:为满足业务方分析需求,数仓基础统计中存在大量多维度的指标计算。原有计算中根据不同维度拆分多个sql串行提交hive集群进行查询,多个任务在map阶段存在重复读取源数据等问题,因此引入grouping sets语法合并业务逻辑为一条sql。一次map一次reduce完成一个基础指标的统计,减少集群资源浪费。现以安卓国内版天活跃启动统计任务为例进行测试。1.sql1 按province,model维度统计source为dw的前后台启动活跃数据。sql1SELECT SOURCE,
原创
发布博客 2022.02.28 ·
1493 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

转换服务锁超时问题

时间:【2021.04.29】解决超时等待问题,更改mysql超时等待时间,去掉索引special_flag异常信息:Lock wait timeout exceeded; try restarting transaction Query这个问题是因为锁竞争超时引起的这块的update,有悲观锁,special_flag加了索引,这条语句执行的时候会锁住special_flag=0的值的记录,在这是有别的线程要修改这些记录中的某条记录,此时不能修改就会等待,而等待超过了设置的超时
原创
发布博客 2022.02.28 ·
391 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

Dolphinscheduler1.1.0 bug排查

背景:2020-06-27 21:23 左右珠海同事维护任务时,发现新提交的task一直处于‘提交成功’中,长时间未转化为‘正在运行’。排查:日志1:master api 操作日志,可见2020-06-27 21:23:39.107时 进程开始删除流程实例id为452345的任务。日志2:worker节点运行日志,2020-06-27 21:23:40.244 worker 批量仍然获取到了452345流程的一些子任务,然后处理任务时在数据库里拿不到相应任务信息报错,轮询30次后才会删除zk
原创
发布博客 2022.02.28 ·
778 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

clickhouse查询压力测试

0x00 背景目前数仓业务方的实时需求大部分都通过clickhouse集群实现,为保证电商节业务方实时数据的稳定及时输出,需对clickhouse集群进行压力测试。这里先对sql查询进行测试。现在clickhouse集群单机表和分布式表并存,单机表(目前主要在02机器上)通过机器内网ip加端口的形式进行查询,分布式表通过lb轮询分发到某一台机器进行查询。0x01 测试环境工具:locust:python开源的性能测试框架,通过官方jdbc内网连接查询资源:clickhouse 2.
原创
发布博客 2021.12.02 ·
5129 阅读 ·
2 点赞 ·
0 评论 ·
6 收藏

基于kyuubi+spark3 加速hive批计算任务

​​​0x00背景我司报表平台大量ETL任务原来采用hive on tez引擎执行批计算任务,存在资源不足执行慢等问题急需解决。经调研及测试,我们发现spark 3.0引擎在sql兼容性及执行速度等方面有巨大优化,平均执行速度是hive的2-10倍,因此我们计划通过spark3.0进行离线加速工作。0x01架构​​​​​​​​​​​​​​​​​kyuubi 1.3.0 spark 3.1.2 Scala 2.12 Submarine:Spark Sercurity 0.6.0..
原创
发布博客 2021.12.02 ·
7041 阅读 ·
3 点赞 ·
4 评论 ·
11 收藏

开源BI系统调研

我司近期在调研BI系统,用以丰富报表平台即席分析能力。简单调研了下当前市面上热度比较高的开源BI:superset、grafana和kibana我们已经有了,grafana和kibana用在特定场景下,superset用在基于sql的即席分析及图表、大屏展示。superset和redash功能类似选一个就行,推荐superset。DataEase比较新,主要跟doris集成度比较高,其他数据源支持有限,可持续关注,当前不建议部署。适用地址https://demo.dataease.io/
原创
发布博客 2021.12.02 ·
2887 阅读 ·
1 点赞 ·
0 评论 ·
3 收藏

基于ranger的presto账号权限管理及事件监听方案

背景:我司为解决hive数据分析慢问题,部署了presto 347版本集群。同时即席分析平台采用开源产品superset 1.0版本。为满足公司业务场景,需开发以下功能解决认证及审计等问题。jdbc等连接方式(开发同学专用)需验证ranger账号密码并通过ranger进行库表权限验证。 superset登录(数据分析同学使用)需验证公司sso账号,且superset端所有同学共用一个presto数据源连接,需单独设计权限认证方式。 开发事件监听器,用于用户SQL查询情况审计等。一、账号密码
原创
发布博客 2021.08.11 ·
2460 阅读 ·
3 点赞 ·
1 评论 ·
7 收藏

Java与模式(清晰书签版)

发布资源 2017.12.01 ·
pdf