自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(17)
  • 资源 (1)
  • 收藏
  • 关注

原创 数据分析平台在企业中的架构、应用、落地【包含整体数据流】

背景作为数据赋能的一部分,大数据整合的数据集、标签、特征如何在生产中完全铺开使用;如何满足不同部门人员使用;能够从数据源、数据联合、数据集结果、元数据、数据链路进行完整的赋能是一个比较大的难题;尤其是业务人员很多,业务形态多变,查询请求量大,查询复杂都是其中的挑战;目标满足公司所有分析需要,产品化服务;满足公司所有的BI服务;稳定、快速、易用;当前使用情况因为是内部平台,平台用户量200+,人员类型分别是数据分析师、建模分析师、算法工程师、产品等;很多情况是根据外部数据热

2022-03-03 20:06:34 2523

原创 wiki办公软件confluence本地mac环境安装(其他环境方法一致)-详细安装过程与破解方式以及问题排除

说明包含如何下载confluence;如何正确的安装confluence;如何破解confluence;如何完全的做完所有步骤,以及排完所有的坑;安装过程环境Mac OS Big Sur1. 官网下载Confluence官网https://www.atlassian.com/software/confluence/download-archives在下面View all versions随意选择自己需要的版本进行下载linux等环境用户直接wget url即可;

2022-02-26 11:35:13 3508

原创 Impala内存不够、查询超出内存的原因以及优化方式

Impala内存不够、查询超出内存的原因以及优化方式【附官网链接与解决过程】

2022-02-23 18:38:13 8044

原创 大数据Spark、Mr、Impala使用parquet、textfile、snappy等不同数据存储编码和压缩的效率实测对比以及项目选型

整体说明会进行此次检测的背景介绍,通过官方以及自己的学习了解进行一些基础解释;使用具体的线上数据进行压缩比,查询性能的测试;查询性能的不同场景,大数据计算、用户查询性能等,包含Spark以及Impala的性能测试【这部分都是生产中会实际遇到的,希望能给大家阐述的清晰】;包含具体生产场景的项目选型;背景当前背景为生产中真是遇到的问题,并且进行测试和选型;当前数据层作为数据湖的上游,作为所有数据分析的基础,数据仓库的过程以及所有服务的数据来源,满足各种场景是实际生产中所需要的,包括数据仓库、

2022-02-15 15:54:29 2750

原创 Flink实战5-Flink全局参数传递实现Kafka数据源对接落地Elasticsearch_Sink与过程Search

背景适用于配置化传入Flink全局参数;项目起源于公司多数据源对接,此Demo只是其中一种,整个过程是公司前端部门因为各方渠道传入的不同数据,风控的业务方需要保留进行规则查询;数据流转过程就是Kafka接入不同数据源,按照不同的要求进行es的直接存储或者查询拼接后的存储;摘要关键字Flink_Elasticsearch查询、Elasticsearch_Sink、Flink全局配置化参数;设计整个过程比较简单,每个类中注释很详细;Kafka_Source对接数据源;Mapper_P

2021-06-12 22:24:23 1167 2

原创 Flink实战4-Flink广播流动态更新MySQL_Source配置信息实现配置化流式处理程序

背景适用于配置化操作流,无需终止流式程序实现配置,并且以广播流的形式在流式程序中使用;实现MySQL_Source配置信息动态定时更新;实现MySQL_Source广播流,此处使用最常用的keyby广播流KeyedBroadcastProcessFunction;摘要关键字MySQL_Source、Flink广播流;设计MyJdbcSource日常创建一个继承源富函数的类;初始化单连接;配置更新时间设置自己可以编写方法应用;配置化Flink广播流;获取配置S

2021-06-06 19:17:33 2952 7

原创 Elasticsearch入门(RestHighLevelClient)-客户端封装-API查询

背景- 大数据架构业务场景中需要实时数据落入ES,基本上是业务数据,目的是为了封装后作为规则引擎的变量提供,是变量系统的一部分;- 架构数据流来源于Maxwell,Spark Streaming做数据流处理,落库使用RestHighLevelClient的同步提交Bulk写入;增删改此文档不涉及,主要就是客户端以及查询的封装,为后续变量系统的应用部分;客户端streaming直接使用def createESClientNew(): RestHighLevelClient = { new Re

2021-03-07 22:41:37 909 2

原创 Flink实战3-数据实时写入HBase的Sink方式

背景接入Kafka实时数据经过数据处理写入HBase,后续会应用于类似变量系统以及实时日志中,对于变量系统这类中间需要做实时缓存宽表可能使用HBase连接极其频繁,所以是使用客户端还是Sink的方式就看实际情况而定,具体数据处理后的落库Sink还是比较方便的;摘要关键字Flink,Sink,HBase,数据处理,数据流转设计使用的是Max Well数据源,将业务数据接入Kafka,Flink-Source接入Kafka,中间经过数据流转将数据存储到HBase作实时表;实现说明

2020-12-06 10:18:01 6040 3

原创 Flink实战2-数据实时写入HBase的客户端方式做Hive映射表提供Bi集成Impala查询

背景部分API数据需要实时接入,数据分析师以及风控部门实时调用做规则,尝试使用HBase做映射使用Impala提供分析,HBase做接口返回实时数据结果;摘要关键字Flink将商城接入的API实时数据写入HBase设计Flink对接Kafka数据源,数据处理之后在客户端直接写入,较低效,每条数据需要建立连接;说明因为是一个简单的开始Demo,刚开始使用Flink写入,所以有很多待优化的地方,也是需要跟进学习的地方;Demo为使用HBase客户端,并非标准的Flink-HBas

2020-12-03 19:01:58 1011

原创 Flink实战1-数据实时写入Kudu的客户端方式给与业务以Impala实时分析

背景互联网金融,面对的业务方较多;风控部门的数据分析师,策略分析师,反欺诈分析师等,目前的数据量这些分析师使用Python以及MySQL是无法满足快速高效的分析的;商城、运营部门等的报表看板,定制化用户行为分析等。;目前的自主分析是使用的开源产品Superset做一部分的改造,接入Druid,ES,Impala,分析师们已经全部转到我们的平台,大部分的使用都是基于我们数仓的DWS,但是除此之外实时数据没有完全接入,这是目前的痛点,也是最需要做的;尝试使用HBase做映射使用Impala分析,但是只能按照

2020-11-28 21:05:50 2897

原创 Flink开端-部署Examples之Yarn任务

背景一直以Spark为主做Batch和Streaming的开发,之前在上层做过关于Flink的业务处理,现在重新使用记录一些开始以及之后使用过程中的实操与具体开发的过程;开端之前刚开始做Flink的时候有一些小笔记,不过目前来看可能作用并不是很大,不过就是很多基础性的东西,刚开始使用的话可以参考,目前的过程都是依照业务流程,按照Streaming的思想来做数据流转和处理,过程遇到问题再来依据Flink的思想来解决问题;任务部署运行模式有很多,本地模式就不赘述了,目前最多的还是集成Yar

2020-11-28 19:59:44 435

原创 大数据集群迁移方案

背景当前集群满足不了日益增长的业务量级,并且需要一套全新集群,并且后续的扩充依据新集群展开,此次集群迁移是将所有数据,服务,业务线全部迁移,围绕着新老集群展开,老集群保证线上无误的情况下进行迁移,具体细则展开在下文以及后续;整体规划新集群重装,涉及的量比较大,优化等等;保证线上与新集群同时运行;数仓迁移,HBase数据迁移,部门之间调用配置修改等;中间件集群不变,但是机架更换只与服务有关;服务迁移;集群搭建按照原服务无改变,不包含中间件ES,Druid,Clickhouse,ne

2020-11-23 20:12:46 2073 1

原创 KUDU的API使用,不同客户端操作应对批处理与流处理

背景当前公司为互联网金融公司,面对的业务方较多;风控部门的数据分析师,策略分析师,反欺诈分析师等,目前的数据量这些分析师使用Python以及MySQL是无法满足快速高效的分析的;商城、运营部门等的报表看板,定制化用户行为分析等。;目前的自主分析是使用的开源产品Superset做一部分的改造,接入Druid,ES,Impala,分析师们已经全部转到我们的平台,大部分的使用都是基于我们数仓的DWS,但是除此之外实时数据没有完全接入,这是目前的痛点,也是最需要做的;尝试使用HBase做映射使用Impala分析

2020-11-22 10:44:36 1130

原创 项目中数据迁移实践(更)

项目中的数据迁移(更)需求数据服务的需求,除了公司集群现有的业务数仓表之外,还需要用户行为数据,因为主要是风控业务,所以大数据一直在做和规则机有关的数据处理和分析,由于定位问题,所以是有将行为数据回收自己开发的想法,为了完成这次关于用户行为的数据服务需求,并且未来方便起见,将所以行为有关的events迁移到自己的集群。字段500+,数据周期:半年,数据量TB。过程整体过程三方集群数...

2020-05-06 18:43:13 733

原创 数据中台

数据中台基本介绍定义作为底层数据开发以API方式向上层提供各类数据应用的中间层。解决效率一点业务变更带来的数据开发变更很大,效率低下,开发速度和响应力跟不上。打通业务,进行更好地T+0+1打破冗余避免多个业务有联系但是各自用一套系统,避免重复造轮子,对业务、性能、开发的压力。仓库、平台、中台中台是企业级逻辑,企业的D2V能力,主要以数据API的方式为业...

2020-04-17 20:11:51 479

原创 实时数仓1

实时数仓离线→实时介绍从某种角度而言,实时数仓是针对基础实时应用的优化版,避免实时处理的烟囱式发展,分层管理,数仓思想,逻辑、性能优化,提高了代码的复用率和整体生产效率。从离线到实时的角度而言,实时性更强了,能够满足即时性的需求,数据本身的价值有所增加。抛出问题有离线数仓了,做实时数仓,是否能兼顾到以前的指标体系,是不是可以直接替代?类似于画像体系是否可以在此基础上进行构建?实...

2020-04-08 21:51:40 1155

原创 hive配置tez引擎(排除所有情况bug)

hive配置tez引擎(最管用直插)多次入坑最终总结出了经验tez相比MapReduce而言少了中间阶段向hdfs持久化的过程,多作业转化为单作业,只需要一次hdfs,提升计算性能。集群我的集群比较复杂,基本所有情况都涵盖了,所以大家放心大胆来吧。罗列一些相关的服务供参考组件服务masterslave1slave2slave3slave4...

2019-10-02 22:26:42 2503

Videodata数据文件压缩包包含两个文件夹.rar

hive项目的一些数据。视频可以有多个所属分类,每个所属分类用&符号分割,且分割的两边有空格字符,同时相关视频也是可以有多个元素,多个相关视频又用“\t”进行分割。为了分析数据时方便对存在多个子元素的数据进行操作,我们首先进行数据重组清洗操作。即:将所有的类别用“&”分割,同时去掉两边空格,多个相关视频id也使用“&”进行分割。

2019-09-21

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除