大数据
文章平均质量分 87
软件开发随心记
这个作者很懒,什么都没留下…
展开
-
Spark调优实践随谈
Spark调优原创 2022-10-30 19:38:59 · 747 阅读 · 0 评论 -
互联网行业ERP重构的心路历程
ERP重构,自研ERP,前途光明,道路曲折原创 2022-10-23 23:52:33 · 750 阅读 · 0 评论 -
sparksql数据倾斜那些事儿
sparksql 数据倾斜原创 2022-06-27 11:13:19 · 917 阅读 · 0 评论 -
日常运营数据统计实践
日常运营需要大量的数据用作业务分析以及决策,涉及的指标众多,最常见的指标类似销售的环比和同比。我们常用来计算环比和同比的公式如下:环比增长率 =(当前周期数 - 上一周期数)/ 上一周期数 * 100%同比增长率 =(当前周期数 - 历史同期数)/ 历史同期数 * 100%从以上公式可以看出,两个指标的计算需要知道当前周期数据、上一周期数据以及历史同期数。我们以月的维度来简单阐述下三个指标:当前周期的数据=当月1号至今的累计数据、上一周期数据=上月相同天数累计数据、历史同期数据=上一年同一月相同原创 2020-10-07 18:45:53 · 994 阅读 · 0 评论 -
Hive SQL执行原理和优化技巧笔记
导语时间飞梭而过,眼看这2018新年伊始,转眼间128大促已经落下帷幕,回顾过去的两周,协助大促监控和业务分析捞数竟然暂用了我大量的工作时间,期间不断的在用Hive SQL进行捞数分析,本着对工作认真负责的态度,对使用的语言做到知其然而知其所以然,最近好好的研究了一把Hive SQL的执行原理,以便写出性能更好的Hive SQL语句。什么是Hive SQL?地球人都知道,我就不说了,直接跳过...原创 2018-12-17 01:17:48 · 4297 阅读 · 0 评论 -
仅使用关系型数据库就解决海量查询的解决方案
一。当前所面临的问题随着互联网的发展,数据量越来越大,既使分库分表后,单表数据量上千万都是很正常,很多业务表在未归档前都是要到几十亿以上,多个这样的业务表存在,到TB级非常正常。但业务的变化也是很快,后面的业务可能就会将分库分表的核心字段丢弃,那就会面临着,没有分库分表字段的存在,却要在几十亿的分库分表中查找,这些查找往往不是分库分表字段,甚至索引列都不是。采用大数据或搜索引擎,甚至一些自己优...原创 2018-12-28 21:18:00 · 915 阅读 · 0 评论 -
BloomFilter简介
一.简介BloomFilter底层是一个位图(位数组)的数据结构,通过k个hash函数将这个元素映射到位数组的k个点,将他们设置为1。检索时,我们查看这k个点是否都为1就能够判断元素是否在BloomFilter中(会有一定的误差率);如果k个点有一个点不为1,那么这个元素肯定不在BloomFilter里面。大致的数据结构:二.使用场景1.海量数据的去重2.处理缓存穿透的场景,用于校验请求...原创 2019-06-04 17:56:46 · 3506 阅读 · 0 评论 -
Appache Griffin 扩展Mysql数据源
概述Apache Griffin定位为大数据的数据质量监控工具,支持批处理数据源hive、text文件、avro文件和实时数据源kafka,而一些以关系型数据库如mysql、oracle为存储的项目也同样需要可配置化的数据质量监控工具,所以扩展griffin的mysql数据源就可以为项目的数据质量监控提供多一种选择。代码结构从上一篇文章apache griffin 中已经介绍了griffin...原创 2019-06-30 16:12:50 · 1847 阅读 · 3 评论