醪糟小丸子
码龄5年
关注
提问 私信
  • 博客:465,474
    社区:1
    动态:3,973
    视频:4
    469,452
    总访问量
  • 115
    原创
  • 14,607
    排名
  • 3,266
    粉丝
  • 3
    铁粉
IP属地以运营商信息为准,境内显示到省(区、市),境外显示到国家(地区)
IP 属地:浙江省
  • 加入CSDN时间: 2019-10-08
博客简介:

laozaoxiaowanzi的博客

查看详细资料
  • 原力等级
    当前等级
    5
    当前总分
    1,347
    当月
    11
个人成就
  • 获得894次点赞
  • 内容获得606次评论
  • 获得1,823次收藏
  • 代码片获得2,275次分享
创作历程
  • 2篇
    2024年
  • 5篇
    2023年
  • 7篇
    2022年
  • 15篇
    2021年
  • 88篇
    2020年
  • 1篇
    2019年
成就勋章
TA的专栏
  • OpenCV
    5篇
  • 大数据
    9篇
  • Java
    12篇
  • pytorch
    8篇
  • 论文
    2篇
  • 非技术贴
    6篇
  • 深度学习
    10篇
  • 博客
    5篇
  • 实验
    8篇
  • 杂文
    1篇
  • MyBatis
    3篇
  • Linux
    22篇
  • MySQL
    5篇
  • hive
    10篇
  • hadoop
    4篇
  • Scala
    3篇
  • zookeeper
    1篇
  • JDBC
    1篇
兴趣领域 设置
  • 数据结构与算法
    排序算法
  • 大数据
    hadoophivesparkflink
  • 人工智能
    机器学习深度学习神经网络pytorch图像处理数据分析
创作活动更多

超级创作者激励计划

万元现金补贴,高额收益分成,专属VIP内容创作者流量扶持,等你加入!

去参加
  • 最近
  • 文章
  • 代码仓
  • 资源
  • 问答
  • 帖子
  • 视频
  • 课程
  • 关注/订阅/互动
  • 收藏
搜TA的内容
搜索 取消

从事数仓工作也有三年了 今天看到一个任务 眉头一紧 这是公司一个和我组长同级女领导写的代码 她在这家公司也有十年了 公司技术团队还没成立她就在 我纳闷她为啥会写出这样的代码 这个任务很多人一起维护 点进去历史版本 每个人都会按照基本的规范去书写代码和注释 对不对齐都另说 关键字还能大小写穿插 。。。因为之前实习工作过的公司 数据团队都有自己一套比较完善的规范化开发流程 在工作中无论是对自己还是团队都比较得心应手 我去年来到这家公司 本身自己工作也比较注重细节 组长也会让我在书写规范上多注意 但我没想到 总会有人打破规则 给别人增添麻烦 这一定是最经典的数仓开发反面教材了

发布动态 2024.11.19

经常听到SaaS,那SaaS到底是什么呢?

如果把云计算简单想象成一台大电脑,那么IaaS是直接给你一台裸机,PaaS是安装好操作系统和基础运行环境再给你,而SaaS则很像网吧,你要玩的游戏已经装好在电脑里面,点击图标打开就可以玩了。
转载
发布博客 2024.05.16 ·
1061 阅读 ·
0 点赞 ·
0 评论 ·
5 收藏

一行代码实现mysql建表语句格式化成hive建表语句

姐妹说用pandas库 可能有bug 但她迟迟不帮我优化 反正我们一致认同能实现功能的代码就是好代码 哈哈哈哈哈 坐等她再帮我换个库写 反正 这段时间不用手敲建表语句了 开心开心。因为我们公司的数据平台在抽数据的时候无法自动生成ODS层hive格式的建表语句,而业务库的一些表字段又非常多,手动+excel修改耗时耗力,于是想通过一个Python脚本自动将。时隔一年没有跟新了 确实平常很躺平 工作中除了sql就是sql 很少学新的内容 就没有产出了 希望之后能多多更新文章吧 这篇就是一个好的开端。
原创
发布博客 2024.04.26 ·
483 阅读 ·
5 点赞 ·
1 评论 ·
2 收藏

ES修改字段的数据类型

查看mapping或者在选择字段的时候可以看到字段keyword的数据类型是。无法使用sort进行排序,现需要改成。因此,做以下修改就可以查出来了。将旧索引的数据导入新索引。查询可以看到数据导入成功。
原创
发布博客 2023.09.18 ·
2710 阅读 ·
0 点赞 ·
0 评论 ·
5 收藏

帆软数据填报——多字段联合校验数据是否重复

如果设定“管理项目编码”和“统计截止日期”字段 作为“联合主键”,该维度下不能存在两条相同记录,在点击提交的时候出现数据校验提示框。同一张表中,在填报时,设定多个字段联合维度下,记录不允许出现2条及以上。(这个文档和这个功能实现没有关系,吐槽文档命名对新手不友好)同个项目同个时间维度不允许存在2条及以上的记录。4.校验公式+校验公式提示写入。
原创
发布博客 2023.06.29 ·
2546 阅读 ·
0 点赞 ·
2 评论 ·
9 收藏

初学帆软踩得坑——数据填报_Excel数据导入

2.【表格重新导入一批,无法成功入库,导致只能导入一次】问题解决:点击增量导入-提交,数据成功入库。点击增量导入,会在第一行下面追加二次导入的数据,但提交之后仍显示第一批数据。单元格数据设置为默认分组,应当改成列表,所在行的每个单元格都要改成。2、表格重新导入一批,无法成功入库,导致只能导入一次,1、整块空白合并单元格,数据无法填入的现象。第一次做数据填报,按照教程做完在用。工具本地数据报表的时候出现。
原创
发布博客 2023.06.29 ·
3237 阅读 ·
0 点赞 ·
0 评论 ·
7 收藏

朋友的直播 多多支持呀

发布动态 2023.06.07

hive调优总结

这样如果任务花费时间很短,又要多次启动JVM 的情况下,JVM 的启动时间会变成一个比较大的消耗,这个时候,就可以通过重用JVM 来解决.(这个功能的一个缺点就是会一 直占用task插槽不释放,以备重用,直到任务完成才释放。动态分区的模式,默认strict,表示必须指定至少一个分区为静态分区,nonstrict模式表示允许所有的分区字段都可以使用动态分区。1. distribute by的分区规则是根据分区字段的hash码与reduce的个数进行模除后,余数相同。是否开启动态分区功能,默认false关闭。
原创
发布博客 2023.01.04 ·
516 阅读 ·
0 点赞 ·
1 评论 ·
0 收藏

一文搞懂什么是“退化维度”

当一个维度没有数据仓库需要的任何数据的时候就可以退化此维度,需要把退化的相关数据迁移到事实表中,然后删除退化的维度。退化维度没有对应的维表,但可以获取与之相关的事实,如上订单号对应的订购者,服务对应的订购金额等。Kimball书中对退化维度的描述为:操作型事务控制号码,例如:订单号码,发票号码,提货单号码通常产生空的维度,经常保存为事实表中的退化维度。退化维度是没有对应维度表的维度键。关键字关系型数据库维度。
原创
发布博客 2023.01.04 ·
4944 阅读 ·
9 点赞 ·
1 评论 ·
29 收藏

Hive 删除一个字段

如何删除hive表中的一个字段?
原创
发布博客 2022.09.17 ·
10838 阅读 ·
9 点赞 ·
1 评论 ·
32 收藏

原来rank() over()函数不止排序

我的逻辑就是先把所有tag='领域'和tag为人称和IP的记录分别挑出来,用uid去left join 就可以剔除拥有tag人称、IP、领域,tag='领域'的记录,只保留单纯拥有领域的记录,再和拥有人称领域的部分union。最近在做一个需求,其中有部分逻辑,秉着一切皆可left join 解决的方式写完了,直到我师兄说我这部分代码可以换个方式写的时候,我:哇,原来还可以这样处理。这个函数本身是用来分组排序的,在这里先给tag(文本)一个数字标识,再通过分组倒序排序就可以很容易的剔除不想要的记录了。...
原创
发布博客 2022.08.16 ·
1700 阅读 ·
0 点赞 ·
0 评论 ·
3 收藏

【读书笔记】《大数据之路》——维度设计总结(3)

弊端:存储浪费,比如某个维度每天的变化量占总体数据量很小比重,但每天仍要存一份这个维度的数据(可以设置好生命周期,清理历史数据)通过将一部分不稳定的属性从主维度中移出,并将它们放置到拥有自己代理键的新表中。Kimball维度建模理论中,必须使用代理键作为每个维表的主键。......
原创
发布博客 2022.08.14 ·
902 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

【读书笔记】《大数据之路》——维度设计总结(2)

如何设计维度? 出于扩展性、产出时间、易用性等方面考虑,设计主从维度。主维表存放稳定、产出时间早、热度高(使用频繁)的属性,从维表存放变化较快、产出时间晚、热度低的属性。......
原创
发布博客 2022.08.08 ·
598 阅读 ·
1 点赞 ·
0 评论 ·
1 收藏

【读书笔记】《大数据之路》——维度设计总结(1)

规范化技术(雪花模型):一个属性只存在于一张表, 删除冗余数据,可以避免数据的不一致性。(对OLTP友好,对OLAP能节约存储,但需要大量关联操作,查询性能差)维度中的描述属性以层次方式或一对多的方式相互关联。在创建事实表时,可以按照属性的层次结构向下钻取数据。反规范化技术:将维度属性层次合并到单个维度中,更适用于统计分析,降低了分析复杂度。描述为“维度”,维度是用于分析事实所需要的多样环境。维度所包含的表示维度的列,称为。雪花模型:属性层次被实例化成一系列的维度,而不是单一的维度。......
原创
发布博客 2022.08.07 ·
654 阅读 ·
0 点赞 ·
4 评论 ·
0 收藏

DataGrip之一个赏心悦目的SQL格式化模板,快用起来吧

前段时间做需求,同事吐槽我的代码难以阅读,非让我用vs code,从最开始使用的notepad++到sublime,再到datagrip,发现最后一个功能更全一点,所以还是决定坚持用这个工具来格式化我的SQL。 如果你懒得去自己一个个试,那么可以套用这个。一、DataGrip的SQL格式化设置菜单1.Preference(command+,)2.Editor->Code Style->General二、格式化模板1.Queries (查询)...
原创
发布博客 2022.03.27 ·
10822 阅读 ·
5 点赞 ·
1 评论 ·
10 收藏

hive函数-日期函数汇总

1.unix时间戳转日期函数语法:from_unixtime(bigint unixtime[, string format])说明:转化UNIX时间戳(从1970-01-01 00:00:00 UTC到指定时间的秒数)到当前时区的时间格式,返回值类型string举例:select from_unixtime(1645452469984,'yyyyMMdd');select from_unixtime(1645452469,'yyyy-MM-dd');2.获取当前时间戳
原创
发布博客 2022.02.21 ·
4669 阅读 ·
2 点赞 ·
0 评论 ·
18 收藏

hsql统计两天数据差异的算法及lag()/led()分析函数的使用

写一个数据监控的算法,听起来很厉害的样子,但实际上就是计算数据变化的差异,如果这个差异超过某个设定的阈值,那么就可以通过给数据维护人员发送预警,及时做出相应的调整。 最近在工作中,业务方提出了一个对数据监控预警的需求——如果每日的数据量差异超过某个设定的阈值,将会发送邮件通知我们,然后我们就要对数据进行分析,找出产生巨大差异的原因,进而做一定的调整。 我要完成的内容是: 即计算每个类别当天与前一天的差异 问题其实...
原创
发布博客 2021.06.24 ·
1373 阅读 ·
6 点赞 ·
9 评论 ·
3 收藏

一文读懂朴素贝叶斯分类算法

因为毕业论文是和贝叶斯理论相关的内容,今天恰巧看到一篇朴素贝叶斯分类算法的文章,写的非常通俗易懂,再结合另外一篇CNN的文章,能帮助自己的理解
原创
发布博客 2021.06.16 ·
2151 阅读 ·
19 点赞 ·
13 评论 ·
39 收藏

非常非常非常喜欢

发布动态 2021.05.25

ShuffleError:error in shuffle in fetcher解决办法

今天在跑一个hive任务的时候,遇到了这个错误,很明显这个错误是在shuffle阶段出现了问题,报错为java.lang.OutOfMemoryError:java heap space从网上找到了解决办法,这里记录一下:异常原因:很可能是因为数据倾斜导致的栈溢出。在shuffle阶段,会将map的output数据给取下来,然后根据设定的参数决定是放进内存中,还是存储到磁盘里面进行操作。而mapreduce.reduce.shuffle.memory.limit.percent这个参数默认值是0
原创
发布博客 2021.05.19 ·
1424 阅读 ·
0 点赞 ·
0 评论 ·
1 收藏
加载更多