Kevin_鹿-CSDN博客

原创数据分析平台在企业中的架构、应用、落地【包含整体数据流】

背景作为数据赋能的一部分，大数据整合的数据集、标签、特征如何在生产中完全铺开使用；如何满足不同部门人员使用；能够从数据源、数据联合、数据集结果、元数据、数据链路进行完整的赋能是一个比较大的难题；尤其是业务人员很多，业务形态多变，查询请求量大，查询复杂都是其中的挑战；目标满足公司所有分析需要，产品化服务；满足公司所有的BI服务；稳定、快速、易用；当前使用情况因为是内部平台，平台用户量200+，人员类型分别是数据分析师、建模分析师、算法工程师、产品等；很多情况是根据外部数据热

2022-03-03 20:06:34 2660

原创 Impala内存不够、查询超出内存的原因以及优化方式

Impala内存不够、查询超出内存的原因以及优化方式【附官网链接与解决过程】

2022-02-23 18:38:13 9016

原创大数据Spark、Mr、Impala使用parquet、textfile、snappy等不同数据存储编码和压缩的效率实测对比以及项目选型

整体说明会进行此次检测的背景介绍，通过官方以及自己的学习了解进行一些基础解释；使用具体的线上数据进行压缩比，查询性能的测试；查询性能的不同场景，大数据计算、用户查询性能等，包含Spark以及Impala的性能测试【这部分都是生产中会实际遇到的，希望能给大家阐述的清晰】；包含具体生产场景的项目选型；背景当前背景为生产中真是遇到的问题，并且进行测试和选型；当前数据层作为数据湖的上游，作为所有数据分析的基础，数据仓库的过程以及所有服务的数据来源，满足各种场景是实际生产中所需要的，包括数据仓库、

2022-02-15 15:54:29 2955

原创 Flink实战5-Flink全局参数传递实现Kafka数据源对接落地Elasticsearch_Sink与过程Search

背景适用于配置化传入Flink全局参数；项目起源于公司多数据源对接，此Demo只是其中一种，整个过程是公司前端部门因为各方渠道传入的不同数据，风控的业务方需要保留进行规则查询；数据流转过程就是Kafka接入不同数据源，按照不同的要求进行es的直接存储或者查询拼接后的存储；摘要关键字Flink_Elasticsearch查询、Elasticsearch_Sink、Flink全局配置化参数；设计整个过程比较简单，每个类中注释很详细；Kafka_Source对接数据源；Mapper_P

2021-06-12 22:24:23 1279 2

原创 Flink实战4-Flink广播流动态更新MySQL_Source配置信息实现配置化流式处理程序

背景适用于配置化操作流，无需终止流式程序实现配置，并且以广播流的形式在流式程序中使用；实现MySQL_Source配置信息动态定时更新；实现MySQL_Source广播流，此处使用最常用的keyby广播流KeyedBroadcastProcessFunction；摘要关键字MySQL_Source、Flink广播流；设计MyJdbcSource日常创建一个继承源富函数的类；初始化单连接；配置更新时间设置自己可以编写方法应用；配置化Flink广播流；获取配置S

2021-06-06 19:17:33 3142 7

原创 Elasticsearch入门(RestHighLevelClient)-客户端封装-API查询

背景- 大数据架构业务场景中需要实时数据落入ES，基本上是业务数据，目的是为了封装后作为规则引擎的变量提供，是变量系统的一部分；- 架构数据流来源于Maxwell，Spark Streaming做数据流处理，落库使用RestHighLevelClient的同步提交Bulk写入；增删改此文档不涉及，主要就是客户端以及查询的封装，为后续变量系统的应用部分；客户端streaming直接使用def createESClientNew(): RestHighLevelClient = { new Re

2021-03-07 22:41:37 1023 2

原创 Flink实战3-数据实时写入HBase的Sink方式

背景接入Kafka实时数据经过数据处理写入HBase，后续会应用于类似变量系统以及实时日志中，对于变量系统这类中间需要做实时缓存宽表可能使用HBase连接极其频繁，所以是使用客户端还是Sink的方式就看实际情况而定，具体数据处理后的落库Sink还是比较方便的；摘要关键字Flink，Sink，HBase，数据处理，数据流转设计使用的是Max Well数据源，将业务数据接入Kafka，Flink-Source接入Kafka，中间经过数据流转将数据存储到HBase作实时表；实现说明

2020-12-06 10:18:01 6471 3

原创 Flink实战2-数据实时写入HBase的客户端方式做Hive映射表提供Bi集成Impala查询

背景部分API数据需要实时接入，数据分析师以及风控部门实时调用做规则，尝试使用HBase做映射使用Impala提供分析，HBase做接口返回实时数据结果；摘要关键字Flink将商城接入的API实时数据写入HBase设计Flink对接Kafka数据源，数据处理之后在客户端直接写入，较低效，每条数据需要建立连接；说明因为是一个简单的开始Demo，刚开始使用Flink写入，所以有很多待优化的地方，也是需要跟进学习的地方；Demo为使用HBase客户端，并非标准的Flink-HBas

2020-12-03 19:01:58 1120

原创 Flink实战1-数据实时写入Kudu的客户端方式给与业务以Impala实时分析

背景互联网金融，面对的业务方较多；风控部门的数据分析师，策略分析师，反欺诈分析师等，目前的数据量这些分析师使用Python以及MySQL是无法满足快速高效的分析的；商城、运营部门等的报表看板，定制化用户行为分析等。；目前的自主分析是使用的开源产品Superset做一部分的改造，接入Druid，ES，Impala，分析师们已经全部转到我们的平台，大部分的使用都是基于我们数仓的DWS，但是除此之外实时数据没有完全接入，这是目前的痛点，也是最需要做的；尝试使用HBase做映射使用Impala分析，但是只能按照

2020-11-28 21:05:50 3003

原创 Flink开端-部署Examples之Yarn任务

背景一直以Spark为主做Batch和Streaming的开发，之前在上层做过关于Flink的业务处理，现在重新使用记录一些开始以及之后使用过程中的实操与具体开发的过程；开端之前刚开始做Flink的时候有一些小笔记，不过目前来看可能作用并不是很大，不过就是很多基础性的东西，刚开始使用的话可以参考，目前的过程都是依照业务流程，按照Streaming的思想来做数据流转和处理，过程遇到问题再来依据Flink的思想来解决问题；任务部署运行模式有很多，本地模式就不赘述了，目前最多的还是集成Yar

2020-11-28 19:59:44 492

原创大数据集群迁移方案

背景当前集群满足不了日益增长的业务量级，并且需要一套全新集群，并且后续的扩充依据新集群展开，此次集群迁移是将所有数据，服务，业务线全部迁移，围绕着新老集群展开，老集群保证线上无误的情况下进行迁移，具体细则展开在下文以及后续；整体规划新集群重装，涉及的量比较大，优化等等；保证线上与新集群同时运行；数仓迁移，HBase数据迁移，部门之间调用配置修改等；中间件集群不变，但是机架更换只与服务有关；服务迁移；集群搭建按照原服务无改变，不包含中间件ES，Druid，Clickhouse，ne

2020-11-23 20:12:46 2224 1

原创 KUDU的API使用，不同客户端操作应对批处理与流处理

背景当前公司为互联网金融公司，面对的业务方较多；风控部门的数据分析师，策略分析师，反欺诈分析师等，目前的数据量这些分析师使用Python以及MySQL是无法满足快速高效的分析的；商城、运营部门等的报表看板，定制化用户行为分析等。；目前的自主分析是使用的开源产品Superset做一部分的改造，接入Druid，ES，Impala，分析师们已经全部转到我们的平台，大部分的使用都是基于我们数仓的DWS，但是除此之外实时数据没有完全接入，这是目前的痛点，也是最需要做的；尝试使用HBase做映射使用Impala分析

2020-11-22 10:44:36 1213

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

Kevin__Durant的博客