dulangMaster-CSDN博客

原创数据中台架构

基础设施HDP + 私有云 + k8s/docker存储组件Hadoop/hive/ELK/GP/Tidb/hbase/kudu离线ETLHQL/spark/presto/kettle实时ETLKafka/cdc/flink/spark streamingOLAP分析Kylin/clickhouse/BI数据仓库建模 kimball/inmon建模基于sap / wms / crm; sap(mm/sd/fico)流程Ods / dwd/dwm /dws/opsKimba

2022-01-26 17:29:40 4517

原创 Presto

一 Presto 基本介绍Presto 分成两个开源框架来维护Prestodb由facebook维护 Prestosql （现在更名为trino）两个框架的架构和原理基本一致，所以使用安装起来没有差别，1 Prestosql 社区更活跃，Prestodb由于公司维护更新较慢，2 Prestosql 解决了hive acid的问题这是我现在安装它的核心目的。Presto 不仅支持hive，也支持kudu、kafka等多种组件Presto 需要java11运行环境我在测试机已经安装两个java

2022-01-26 15:27:55 2487

原创数据仓库建模，数据治理

数据仓库建模，数据治理现在数据源来自sap wms crm 财务共享平台 oa 网报等各个公司系统公司各种系统相互关联，数据之间已经形成了错综复杂的关系模型，拥有500多张表，并在此基础上开发了200多张dws dim和ads数据仓库表合适的数据仓库模型一定是一个工作量最少元数据管理清晰的，对于数据开发的难点在于对所有系统的数据结构并不特别清晰，导致大量的重复开发，每当遇到新的问题不仅需要相关的业务人员配合还需要相关的

2022-01-26 15:26:31 1516

原创 k8s 入门浅谈

k8s入门浅谈

2022-01-05 11:05:43 1521

原创 spark 连接HDP hive ACID

原生的spark 连接hive表可以直接通过thrift服务连接操作hiveHDP和CDH最新版本都封装hive3不能直接使用thrift操作hive只能查看hive元数据Hdp3连接要配置3项先用spark-shell 测试spark-shell --master yarn –jars /usr/hdp/3.1.5.0-152/hive_warehouse_connector/hive-warehouse-connector-assembly-1.0.0.3.1.5.0-152.jar –co

2021-06-22 10:20:46 698

原创 spark 连接kerberos

在资源文件放入hdfs-site.xmlcore-site.xmlhive-site.xmlimport org.apache.hadoop.security.UserGroupInformationimport org.apache.spark.SparkConfimport org.apache.spark.sql.SparkSessionobject SparkKerberos { def main(args: Array[String]): Unit = { Syst.

2021-05-12 21:11:21 1110

原创大数据实时计算调研

数据采集 flume和 confluent-kafkaflume 需要下载flume-sql-source.jar包githup下载并mvn编译、flume 只能通过id自增来判断，把最新的id放入本地文件记录每次新增一条数据时通过 new id >本地文件id判断这是最新数据，可以采集flume#flume.confagent.channels.ch1.type = memoryagent.sources.sql-source.channels = ch1agent.channel

2021-04-06 16:27:12 171

原创 mysql 主主复制

Centos7+Mysql8双机（主-主复制HA）1.1 操作前的准备两台服务器，并同时按照Centos7.3新装版本（必须装相同版本）；如果有外网链接则配置Centos7联网、安装wget工具，如果没有外网链接则跳到 “1.2 centos7下安装mysql”；配置Centos7联网新装Centos7默认联网是关闭的，可以通过以下步骤设置开机联网第一步：[root@localhost ~]# cd /etc/sysconfig/network-scripts/...

2021-03-10 09:29:59 116

原创 ambari kerberos 实践

认用户kinit -kt /etc/security/keytabs/nn.service.keytab nn/node1@EXAMPLE.COM添加ketab密钥文件ambari路径etc/security/keytabs/hdfs.headless.keytabktadd -k /nn.keytab -norandkey hdfs-bigdata@EXAMPLE.COM-norandkey 必须加否则密钥文件失效...

2021-01-10 21:00:40 97

原创 ambari 安装入门

ambari 安装入门

2020-12-13 12:32:46 741 1

原创大数据项目实践

本人最近入职一个比较大型的国企，转行从事大数据开发，谈下大数据技术在项目的具体实践应用从事了两年多的java开发，在18年大数据风头正胜的时候自学大半年时间大数据技术，但由于大数据一行门槛较高，当然并不好找关于大数据相关的工作，毕竟没有实际的开发经验，今年换工作的时候刚好我现在入职的公司看我写了会一些大数据开源技术，就邀请我过来谈谈。回归正题，大数据具体做什么，普通的公司如何使用大数据技术来为公司带来价值，这是一个比较复杂的问题。可能大家都会说:阿里使用大数据来预测用户的购买意向等等，但是觉大部分公司

2020-11-27 08:30:46 1058

a1282032739的博客