自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(11)
  • 收藏
  • 关注

原创 数据中台架构

基础设施HDP + 私有云 + k8s/docker存储组件Hadoop/hive/ELK/GP/Tidb/hbase/kudu离线ETLHQL/spark/presto/kettle实时ETLKafka/cdc/flink/spark streamingOLAP分析Kylin/clickhouse/BI数据仓库建模 kimball/inmon建模基于sap / wms / crm; sap(mm/sd/fico)流程Ods / dwd/dwm /dws/opsKimba

2022-01-26 17:29:40 4516

原创 Presto

一 Presto 基本介绍Presto 分成两个开源框架来维护Prestodb由facebook维护 Prestosql (现在更名为trino)两个框架的架构和原理基本一致,所以使用安装起来没有差别,1 Prestosql 社区更活跃,Prestodb由于公司维护更新较慢,2 Prestosql 解决了hive acid的问题这是我现在安装它的核心目的。Presto 不仅支持hive,也支持kudu、kafka等多种组件Presto 需要java11运行环境我在测试机已经安装两个java

2022-01-26 15:27:55 2431

原创 数据仓库建模,数据治理

数据仓库建模,数据治理现在数据源来自sap wms crm 财务共享平台 oa 网报等各个公司系统公司各种系统相互关联,数据之间已经形成了错综复杂的关系模型,拥有500多张表,并在此基础上开发了200多张dws dim和ads数据仓库表合适的数据仓库模型一定是一个工作量最少 元数据管理清晰的,对于数据开发的难点在于对所有系统的数据结构并不特别清晰,导致大量的重复开发,每当遇到新的问题不仅需要相关的业务人员配合 还需要相关的

2022-01-26 15:26:31 1504

原创 k8s 入门浅谈

k8s入门浅谈

2022-01-05 11:05:43 1518

原创 spark 连接HDP hive ACID

原生的spark 连接hive表可以直接通过thrift服务连接操作hiveHDP和CDH最新版本都封装hive3不能直接使用thrift操作hive只能查看hive元数据Hdp3连接要配置3项先用spark-shell 测试spark-shell --master yarn –jars /usr/hdp/3.1.5.0-152/hive_warehouse_connector/hive-warehouse-connector-assembly-1.0.0.3.1.5.0-152.jar –co

2021-06-22 10:20:46 694

原创 spark 连接kerberos

在资源文件放入hdfs-site.xmlcore-site.xmlhive-site.xmlimport org.apache.hadoop.security.UserGroupInformationimport org.apache.spark.SparkConfimport org.apache.spark.sql.SparkSessionobject SparkKerberos { def main(args: Array[String]): Unit = { Syst.

2021-05-12 21:11:21 1107

原创 大数据实时计算调研

数据采集 flume和 confluent-kafkaflume 需要下载flume-sql-source.jar包githup下载并mvn编译 、flume 只能通过id自增来判断,把最新的id放入本地文件记录每次新增一条数据时通过 new id >本地文件id判断这是最新数据,可以采集flume#flume.confagent.channels.ch1.type = memoryagent.sources.sql-source.channels = ch1agent.channel

2021-04-06 16:27:12 170

原创 mysql 主主复制

Centos7+Mysql8双机(主-主复制HA)1.1 操作前的准备两台服务器,并同时按照Centos7.3新装版本(必须装相同版本); 如果有外网链接则配置Centos7联网、安装wget工具,如果没有外网链接则跳到 “1.2 centos7下安装mysql”;配置Centos7联网新装Centos7默认联网是关闭的,可以通过以下步骤设置开机联网第一步:[root@localhost ~]# cd /etc/sysconfig/network-scripts/...

2021-03-10 09:29:59 114

原创 ambari kerberos 实践

认用户kinit -kt /etc/security/keytabs/nn.service.keytab nn/node1@EXAMPLE.COM添加ketab密钥文件ambari路径etc/security/keytabs/hdfs.headless.keytabktadd -k /nn.keytab -norandkey hdfs-bigdata@EXAMPLE.COM-norandkey 必须加 否则 密钥文件失效...

2021-01-10 21:00:40 95

原创 ambari 安装入门

ambari 安装入门

2020-12-13 12:32:46 737 1

原创 大数据项目实践

本人最近入职一个比较大型的国企,转行从事大数据开发,谈下大数据技术在项目的具体实践应用从事了两年多的java开发,在18年大数据风头正胜的时候自学大半年时间大数据技术,但由于大数据一行门槛较高,当然并不好找关于大数据相关的工作,毕竟没有实际的开发经验,今年换工作的时候刚好我现在入职的公司看我写了会一些大数据开源技术,就邀请我过来谈谈。回归正题,大数据具体做什么,普通的公司如何使用大数据技术来为公司带来价值,这是一个比较复杂的问题。 可能大家都会说:阿里使用大数据来预测用户的购买意向等等,但是觉大部分公司

2020-11-27 08:30:46 1051

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除