大数据
文章平均质量分 55
诸葛子房_
先后就职于京东和BAT,在大数据领域有多年工作经验;
Apache Griffin&&Apache Zeppelin Contributor,dataCompare和dataService作者
展开
-
大数据=SQL Boy,SQL Debug打破SQL Boy 的僵局
网上经常盛传 大数据=sql boy,后端开发=crud boy,算法工程师=调参boy在大数据领域也工作了好几年了,确实大数据开发,很多工作就是写sql,hive sql、spark sql、flink sql等等sql。原创 2023-04-10 15:22:55 · 2450 阅读 · 1 评论 -
从0到1介绍一下开源大数据服务平台dataService
在大数据领域也已经工作了多年,无论所待过的大公司还是小公司,统计出来的数据经常需要查询展示,比如说:用做大屏或者报表或者给一些线上服务提供数据源,经常会要用代码写一套接口服务,需要进行开发-测试-上线等一套流程,开发效率非常低下,导致开发一个服务需要接近0.5天或者1天的时间。(2)为了满足不同的数据量要求,选择不同的数据存储,因此导致数据存储多样性(比如:Mysql、Oracle、Hbase、Doris等等),所以针对不同的存储开发代码不一致。(3)接口服务不规范,不同的开发人员,对于接口开发不一致。原创 2023-01-29 13:57:11 · 5381 阅读 · 10 评论 -
Hive 任务调优实践总结
reduce数50单个reduce运行了20h还没完成,还经常失败。reduce数1000单个reduce运行了1h左右。map数30000单个map运行7-8分钟。map数30000单个map运行7-8分钟。绝伦整体耗时20多个小时还没有完成并且失败了。原创 2022-07-15 14:38:19 · 365 阅读 · 0 评论 -
大数据调优经验
1.Mapreduce 调优根据maps/reduces个数、对应的avg time调整mapreduce.job.maps、mapreduce.job.reduces,控制平均时间在30分钟左右(比如maps调小一半,avg time增加一倍)因为设置太多maps/reduces了,每个map/reduce都得去抢资源,都浪费在排队上了2.spark 任务调优3.Flink 任务调优反压(Backpressure)排查办法:1)在监控图上找到有反压的最下游Task节点,去Job原创 2022-05-22 10:35:53 · 419 阅读 · 0 评论 -
antlr4 简单实用入门——(一)
Antlr4 简介简介Antlr4 是一款强大的语法生成器工具,可用于读取、处理、执行和翻译结构化的文本或二进制文件。基本上是当前 Java 语言中使用最为广泛的语法生成器工具。Twitter搜索使用ANTLR进行语法分析,每天处理超过20亿次查询;Hadoop生态系统中的Hive、Pig、数据仓库和分析系统所使用的语言都用到了ANTLR;Lex Machina将ANTLR用于分析法律文本;Oracle公司在SQL开发者IDE和迁移工具中使用了ANTLR;NetBeans公司的IDE使用ANTLR来原创 2021-12-28 16:41:48 · 11943 阅读 · 1 评论 -
用户画像系列文章
伴鱼用户画像平台:设计篇 | 伴鱼技术团队 (ipalfish.com)苏宁超6亿会员如何做到秒级用户画像查询? (qq.com)贝壳DMP平台建设实践 (qq.com)原创 2021-10-25 14:50:49 · 176 阅读 · 0 评论 -
数据质量系列文章整理
大数据平台的核心理念是构建于业务之上,用数据为业务创造价值。大数据平台的搭建之初,优先满足业务的使用需求,数据质量往往是被忽视的一环。但随着业务的逐渐稳定,数据质量越来越被人们所重视。千里之堤,溃于蚁穴,糟糕的数据质量往往就会带来低效的数据开发,不准确的数据分析,最终导致错误的业务决策。而网易也在数据质量方面不断探索,本文将对网易有数大数据平台的子产品,数据质量中心的现状及规划方向进行简要介绍。——1——背景网易有数大数据平台对数据的全生命周期都进行了管理,从数据规划开始,到数据原创 2021-10-25 14:43:32 · 593 阅读 · 0 评论 -
某互联网大厂亿级大数据服务平台的建设和实践
一、引言:在大数据建设过程中,通用的建设思路:从数据埋点——数据采集——数据清洗(ETL)——数据服务——数据可视化。整体流程可参考下图:这篇文章主要想和大家聊聊的是,数据服务平台的建设。二、背景:由于数据加工完成的数据,需要给不同的应用和产品提供服务,包含:数据产品、实时大屏、线上应用、BI自主分析。由于业务场景不同,在根据不同的场景下选择的数据存储也多种多样,图中罗列:Hive、Mysql、Hbase、CK、redis、TiDB等等。最后产生的调用服务也多种多样。如下一.原创 2021-08-13 10:07:06 · 3057 阅读 · 6 评论 -
Apache Calcite—sql执行和解析引擎
谁在用?【Flink SQL引擎】:Calcite 功能简析及在 Flink 的应用 - 程序员大本营 (pianshen.com)Apache Calcite精简入门与学习指导_香飘叶子的技术博客_51CTO博客原创 2021-08-06 13:59:11 · 485 阅读 · 0 评论 -
大数据面试总结
1.Flinkcheckpoint水印、window背压state2.kafka高写入、ack、zero-copybroker、topic、partionISRrebalance3.hbase架构写入流程(两次compact)、hfile读取流程3.javahashmapset 实现克隆jvm4.redis5.springaopioc事务6.mysql索引事务7.算法二分查找...原创 2021-05-13 11:22:14 · 131 阅读 · 0 评论 -
大数据相关各职位解析
进几年A(人工智能)B(大数据)C(云计算)发展火热,由于笔者在一二线互联网行业从事过大数据相关工作,因此决定在大数据领域对自己的所见所闻,来对改行业之外的人士所做一个讲述,以及对想进入刚行业的从业人员做个简单的讲述和分享。大数据首先重要的就是数据,数据从哪里来,到哪里去,这个是我们需要探讨的。首先确定你数据量TB级别、PB级别 or EB级别。上图讲述了数据的来源从用户的数据、购买数据,以及最终的去处:存储、分析。因此可以看出大数据的核心其实是数据。以笔者所在的电商平台为例(其他行业同样如此)原创 2021-07-16 21:53:19 · 1852 阅读 · 0 评论 -
线上产品实时计算架构设计
1.线上产品(高QPS、低RT)技术选型:OLAPFLINK+Redis(Hbase)原创 2021-03-25 15:14:41 · 314 阅读 · 0 评论 -
Hologres 是如何完美支撑双11智能客服实时数仓的?
https://blog.csdn.net/weixin_43970890/article/details/110179616原创 2021-03-01 15:54:33 · 169 阅读 · 0 评论 -
sql 各种join 对比
1.left join ===left outer join2.inner join3.right join参考:https://www.cnblogs.com/reaptomorrow-flydream/p/8145610.html原创 2020-05-14 14:04:41 · 245 阅读 · 0 评论 -
mysql binlog日志实时接入
一、开启mysql binlog二、通过canal三、数据解析insert、update、delete将数据存入hbase,然后判断操作类型,根据唯一主键修改数据,最后查询当前结果下发...原创 2020-04-17 16:13:22 · 326 阅读 · 0 评论 -
京东实时计算架构演进之路
一、背景:从2004年开始,京东进军互联网线上化开始到至今,随着京东的高速发展,京东商城的订单量从万级到百万级、最终到达亿级。而对于实时的数据需求也是层出不穷,实时计算架构随着数据量的增长,不断进行革新。**二、京东实时计算架构演进之路**(1)订单量万级、百万级(以京东海外站为例)在订单量万级、百万级别的时候,也存在不少实时的数据需求,比如:商家需要看看自己每天的成交量、老板需要看看整体的成交金额,以为后续的融资做准备。类似于现在很多的a、b轮创业公司数据体量。解决方案:而此时为了节省更少的原创 2020-03-26 18:49:48 · 1153 阅读 · 0 评论 -
实时计算专栏
1.Kafka专栏2.Flink专栏原创 2019-11-24 20:57:51 · 127 阅读 · 0 评论 -
离线与实时数据开发方案
1.离线数据开发架构(1)离线数据接入离线数据来源:MongoDB、MySQL、SQL_Server、Oracle、Log、HBase、Elasticsearch接入处理:根据不同数据源做适配存储层:将接入的数据写入HDFS文件,建Hive表进行关联查询(2)数据仓库分层:主要分为基础层、中间层、应用层2.实时数据开发(1)实时数据接入实数数据源:MySQL...原创 2019-11-18 12:13:48 · 1977 阅读 · 0 评论 -
ROW_NUMBER() OVER()函数用法详解 (分组排序 例子多)
数据:create table TEST_ROW_NUMBER_OVER( id varchar(10) not null, name varchar(10) null, age varchar(10) null, salary int null);select * from TEST_ROW_NUMBER_OVER t;inse...原创 2019-11-05 17:40:11 · 512 阅读 · 0 评论 -
Flink背压原理以及解决优化
由于进行双11压测,遇到了Flink的背压问题。1.背压的监控如果看到任务的背压警告(如 High 级别),这意味着生成数据的速度比下游算子消费的的速度快。以一个简单的 Source -> Sink 作业为例。如果能看到 Source 有警告,这意味着 Sink 消耗数据的速度比 Source 生成速度慢。Sink 正在向 Source 施加反压。许多情况都会导致背压。例如,G...原创 2019-10-22 23:11:13 · 6524 阅读 · 0 评论 -
Flink实时计算大促压测实践
一、背景:临近双11大促,为避免流量峰值较高,电商公司都会对系统进行压测。一直做实时数据计算,应用是基于Flink做的,接收kafka消息,进行数据统计,包括:pv、uv、dau、单量、成交额等等。为了保证应用在大促期间不出问题,需要进行实时计算程序进行压测。由于统计的数据分为两类(流量数据、订单数据),对这两类数据进行不同方式的压测。二、压测准备(1)压测时间选择:一般...原创 2019-10-22 22:43:20 · 1867 阅读 · 3 评论 -
Flink实时计算指标对数方案
对于一个实时数据产品人员、或者开发人员来说,产品上展示的实时数据,pv、uv、gmv等等,怎么知道这些数据是不是正确的呢?当其他的小组开发的产品的数据(或者其他的数据提供方)又是另外一个数字,那么究竟该如何判断自己的数据还是别人的数据是正确的呢?这就需要一套实时数据对数方案,本文主要从背景、实时数据计算方案、对数方案、总结四方面来介绍,说服老板或者让其他人相信自己的数据是准确的、无误的。一、背...原创 2019-10-16 21:12:50 · 1665 阅读 · 0 评论 -
离线实时消息统计
1.埋点数据---准确性要求一般点击、浏览都会产生数据,可以上报。离线:将pv、cl(日志)等数据上传至服务器,每天定时(一般选择晚上)去拉数据,进行MR处理,同步至HDFS,进行hive查询。实时:服务端上报至kafka等消息队列里,然后实时同步落地或者直接消费2.订单数据----准确性要求较高下单、支付、取消、拆单、优惠、状态改变等消息离线:每天抽取MySQL数据,同步...原创 2019-07-16 13:09:17 · 517 阅读 · 0 评论 -
Zookeeper的选举机制原理(图文深度讲解)——过半选举
三个核心选举原则:(1)Zookeeper集群中只有超过半数以上的服务器启动,集群才能正常工作;(2)在集群正常工作之前,myid小的服务器给myid大的服务器投票,直到集群正常工作,选出Leader;(3)选出Leader之后,之前的服务器状态由Looking改变为Following,以后的服务器都是Follower。下面以一个简单的例子来说明整个选举的过程:假设有五台服...原创 2019-07-11 10:02:57 · 8391 阅读 · 7 评论 -
一种HBase表数据迁移方法的优化
一种HBase表数据迁移方法的优化1.背景调研:目前存在的hbase数据迁移主要分如下几类:根据上图,可以看出:其实主要分为两种方式:(1)hadoop层:因为hbase底层是基于hdfs存储的,所以可以通过把hdfs上的数据拷贝的方式来实现,即:DistCp。(2)hbase层:主要是基于hbase数据层的CopyTable:需要scan全表数据,效率比较低下...原创 2018-09-07 18:47:00 · 161 阅读 · 0 评论 -
Apache Flink教程----2.本地开发
Apache Flink教程----2.本地开发1.pom<dependency> <groupId>org.apache.flink</groupId> <artifactId>flink-clients_2.12</artifactId> <ver...原创 2019-05-05 17:07:00 · 365 阅读 · 0 评论 -
Apache Flink 学习教程----持续更新
Flink 官网:https://flink.apache.org/Flink 社区:https://zh.ververica.com/Flink 教程:http://mp.weixin.qq.com/mp/homepage?__biz=MzIxMTE0ODU5NQ==&hid=5&sn=ff5718eced55d78a92ee79fc887acd45&scene...原创 2019-04-30 10:14:00 · 503 阅读 · 0 评论 -
Apache Flink教程----1.安装初体验
Apache Flink教程----1.安装初体验1.window 版本安装https://flink.apache.org/downloads.html#apache-flink-164D:\flink-1.6.2-bin-scala_2\flink-1.6.2\bin2.mac版本安装brewinstallapache-flink 安装flink-...原创 2019-04-29 16:51:00 · 334 阅读 · 0 评论 -
Apache Flink教程
Apache Flink教程官网:https://flink.apache.org/flink 中文社区:https://zh.ververica.com/zhisheng:http://mp.weixin.qq.com/mp/homepage?__biz=MzIxMTE0ODU5NQ==&hid=5&sn=ff5718eced55d78a92ee79fc887ac...原创 2019-04-26 18:13:00 · 228 阅读 · 0 评论 -
流量数据指标分析
网站数据指标统计分访问(浏览、曝光)和点击1.pv:访问次数(每访问一次+1)2.uv:一天内用户唯一标示去重累计------set进行去重3.dau(日活):与uv同含义,只是适用于app应用4.mau(月活): 每个月的uv,只是适用于app应用 ----京东月活1亿、微信月活10亿某电商网站购买分时曲线(趋势图):...原创 2019-07-12 12:59:29 · 1177 阅读 · 0 评论 -
用户购物行为分析(订单路径树)
1.订单路径树的定义用户从打开某网站到最终下单所点击的路径为订单路径树。比如:打开某电商app或者网站到最终下单的路径,大部分用户的路径为:(1)主页-搜索页-商详页-加购-下单(搜索下单路径)(2)首页-列表页-商详页-加工-下单(列表页下单路径) (3)当然用户也可以进行其他的无规则的点击,最终加购下单,都会生成用户从点击到购买的路径行为。2.订...原创 2019-11-13 11:07:14 · 2910 阅读 · 3 评论 -
实时榜单排行计算
一、榜单介绍在使用应用过程中,经常能够看到如下排行榜,比如:京东销量榜、斗鱼主播榜、微博热搜榜、知乎热榜等等,并且榜单排行还会实时进行改变,也许你上一时刻看到的排名榜单第一的是A,下一时刻可能就变成B了。这时候 可参考数据大屏数据加工方案:https://blog.csdn.net/weixin_43291055/article/details/99649681...原创 2019-08-19 19:52:20 · 1763 阅读 · 0 评论 -
京东618实时数据大屏核心技术解密
本文讲述了京东618实时数据大屏,从用户下单到最终大屏指标计算,呈现给用户。对当中整个流程进行了详细的阐述,以及在开发过程中遇到的问题也进行详细的描述。希望能给搭建大屏的读者提供一个思路。作者简介:诸葛子房,曾供职于京东,现就职于BAT,在大数据领域有多年实践经验,欢迎加微信:zhugezifang001 交流。原创 2019-08-15 19:10:06 · 2702 阅读 · 0 评论 -
HyperLogLog——用户日活(dau)、月活(mau)统计
HyperLogLog 是一种概率数据结构,用来估算数据的基数。数据集可以是网站访客的 IP 地址,E-mail 邮箱或者用户 ID。基数就是指一个集合中不同值的数目,比如 a, b, c, d 的基数就是 4,a, b, c, d, a 的基数还是 4。虽然 a 出现两次,只会被计算一次。精确的计算数据集的基数需要消耗大量的内存来存储数据集。在遍历数据集时,判断当前遍历值是否已经存在唯一...原创 2019-08-21 10:16:15 · 3731 阅读 · 0 评论 -
数据统计榜单
1.微信公众号、微博号、抖音等榜单排行:http://www.gsdata.cn/rank/wxrank2.直播行业数据排行榜单:http://www.toubang.tv/3.行业报告http://report.iresearch.cn/http://mi.talkingdata.com/app-rank.htmlhttp://www.199it.com/4.月活...原创 2019-08-22 18:32:44 · 305 阅读 · 1 评论 -
实时数仓宽表加工解决方案
一.实时数据仓库与离线数据仓库由于离线数据每天凌晨拉去线上生成数据库(凌晨请求较少,减少线上库压力),导致数据是T+1,而对于一些时效性要求较强的场景。比如需要看现在的用户数、GMV等等,离线方案就很难解决了。实时数据仓库就是刚好为了满足时效性要求较高的场景下而生的,但是在做实时数据仓库中经常会遇到一些问题。离线由于表数据都同步到数据仓库中,可以进行随意关联,出一些业务想要的统计结果。但是...原创 2019-08-28 09:55:47 · 4537 阅读 · 3 评论 -
同比、环比
原创 2019-09-05 18:22:36 · 404 阅读 · 0 评论 -
es 学习笔记
架构图es学习资料:https://www.cnblogs.com/jajian/category/1280015.htmlhttp://mp.weixin.qq.com/mp/homepage?__biz=MzI2NDY1MTA3OQ==&hid=5&sn=cfc0b96a399267c2ed839c5a7062b1c3&scene=18#wechat_r...原创 2019-07-18 18:03:23 · 213 阅读 · 0 评论