大数据架构师
文章平均质量分 70
系统架构设计师
百老
熟悉数据治理、物联网、数字孪生、大数据等领域;
获得TOGAF企业架构师、数据治理专家、阿里云云计算工程师、系统集成项目管理工程师、CSDN专家博客、高校教资等认证;
具备数据治理咨询能力、全栈程序开发能力、数据中台架构能力
展开
-
Docker了解
应用程序的打包和交付:使用Docker可以将应用程序和其依赖项打包到一个容器中,确保应用程序在不同环境中一致地运行,简化了应用程序的部署和交付流程。开发环境的隔离和管理:每个开发人员可以使用自己的Docker容器作为开发环境,隔离开发环境与宿主机的依赖关系,提供了更高效、更一致的开发环境。每个容器都是相互隔离的、独立运行的,并且可以快速启动和停止。总之,Docker的基本概念和优势使其成为现代应用程序开发和部署的重要工具,可以提供更高效、更灵活、更可靠的应用程序交付和运行方式。原创 2024-11-10 09:48:49 · 250 阅读 · 0 评论 -
20分钟了解物联网开源数据库部署解决方案
本文针对物联网数据存储提供解决方案的思路,项目特点:结构化数据、传感器节点多(>100)、传感器类型多(>30)、采样频率高(1HZ),在此背景下,一般的关系型数据库已经不能够支撑数据存储,基于免费开源的软件完成数据存储工作,提高数据的读写能力。原创 2023-03-29 10:47:14 · 2069 阅读 · 0 评论 -
15分钟学会Canal安装与部署
虽然canal1.1.6已发布稳定版,下载测试一遍未通过,弃!本教程采用canal 1.1.4版本。原创 2023-02-01 21:34:35 · 1557 阅读 · 0 评论 -
Canal与Kafka数据传输协议protocol buffer
实时数仓开发中,利用Canal伪装slave获取MySQL的增量数据,获取后的数据由Kafka生产者接收,交由Flink实时流计算。白话文:安装一个protobuf-dt 2.2.1插件,将编写的proto文件发送给已经下载好的protoc.exe文件编译,编译后产生的Java文件要设置放置路径。下图中Java输出地址,不用写package的地址,因为package地址在proto文件中已写,如果是proto2的话,在写proto文件的时候语法不同,这里2.5.0也是可以的。3)安装protocol插件。原创 2023-02-01 15:05:53 · 708 阅读 · 0 评论 -
10分钟入门HBase特性与安装部署
1)HBase是BigTable的开源java版本。是建立在HDFS之上,提供高可靠性、高性能、列存储、可伸缩、实时读写NoSQL的数据库系统2)HBase仅能通过主键(row key)和主键的range来检索数据,仅支持单行事务3)主要用来存储结构化和半结构化的松散数据4)Hbase查询数据功能很简单,不支持join等复杂操作,不支持复杂的事务(行级的事务)5)Hbase中支持的数据类型:byte[]6)Hbase支持横向扩展,即增加服务器达到增加存储和处理能力大,可以存上十亿行,上百万列。原创 2023-01-02 16:14:01 · 649 阅读 · 0 评论 -
10分钟数仓实战kettle整合hive
在common文件夹下的hadoop-common-3.3.2.jar文件把jar包下载后放在\data-integration\lib目录下如果此时kettle是打开状态,需要重启,才能生效。原创 2022-12-22 10:01:48 · 499 阅读 · 0 评论 -
10分钟数仓实战之kettle发送邮件
2022/12/19 15:53:16 - 发送邮件 - ERROR (version 8.2.0.0-342, build 8.2.0.0-342 from 2018-11-14 10.30.55 by buildguy) : Problem while sending message: javax.mail.MessagingException: Could not connect to SMTP host: smtp.qq.com, port: 465, response: -1。原创 2022-12-19 16:09:56 · 2589 阅读 · 0 评论 -
10分钟数仓实战之kettle整合Hadoop
很多朋友在做数仓的ETL的动作的时候,还是喜欢比较易上手的kettle前面章节有介绍过安装kettle,可以参考kettle在Windows系统中对数据的转换、表和文件的转换等,都相对简单,而在对大数据平台进行操作的时候,需要先配置相关参数,本节进行kettle整合Hadoop。原创 2022-12-12 22:27:26 · 1528 阅读 · 0 评论 -
数据治理系统解决方案浅析
为了应对数据复杂的现实,数据管理解决方案变得越来越昂贵。企业在使用统筹数据方面变得更加复杂,推动了需要不同方式来处理这些数据的新需求。有远见的组织认为,解决数据问题的唯一方法是实施有效的数据治理。以前由IT驱动的管理数据方面的尝试大多都失败了。直到最近,数据治理大多是非正式的,国家在国家发展规划中多次提到大数据、数字化转型。尽管企业数字化转型其重要性得到高度认可,但数据治理领域仍处于开发和研究阶段。目前,存在的大多是数据治理领域的描述性文献综述。原创 2022-10-06 17:14:47 · 784 阅读 · 0 评论 -
小公司的大数据基础服务集成平台
小李学习后搭了一个三节点的大数据分析平台,集成Hadoop、Hive、HBase、zookeeper等,老板很开心,给小李涨了1000块工资,小李也很开森;12、国内厂商也都在开发相关平台,星环TDH、曙光方舟大数据融合分析平台、Ucloud等等,但是都大几十万,稍微一些定制功能上百万,产品卖的乐此不疲。19、生存与杀熟,cloudera推出社区版,付费不多,要生存,你习惯了CDH,用户量上来了,开始割韭菜。13、这笔钱王老板考虑许久,不能花,招这帮人就是压榨的,必须自己干、苦了干大数据的兄弟们。原创 2022-09-28 22:00:43 · 1162 阅读 · 0 评论 -
大数据分析模型--批处理和流处理
ApacheFlume是一个基于代理的平台,它支持来自不同来源的分布式、可靠和可访问的Web服务,以有效地收集、聚合和移动大量事件数据到集中定义的数据存储。此外,Dryad的特点是功能众多,包括生成作业图、在可用机器上调度进程、处理集群中的瞬时故障、收集性能指标、作业可视化、调用用户定义的策略以及动态更新响应政策决定的工作图。这是一种系统化的处理范式,其中随着时间的推移收集一组数据或一组工业数据,例如运营数据、商业智能、社交数据、历史和档案数据以及服务数据,并将收集到的数据输入分析人机交互较少的处理系统。翻译 2022-09-26 15:32:52 · 2646 阅读 · 0 评论 -
Hue集成MySQL支持丰富的图形表达效果感人
工欲善其事,必先利其器,网上教程往往让你安装一半丈二和尚摸不着头脑本文安装环境CentOS 7安装目录 /export/server软件包存放位置 /export/software已安装好Hadoop3.3.2、Hive3.1.2、Kafka2.12-3.2.1、MySQL等,可查看专栏其他文章。原创 2022-09-21 22:38:16 · 744 阅读 · 2 评论 -
Hue在大数据生态圈的集成
工欲善其事,必先利其器,网上教程往往让你安装一半丈二和尚摸不着头脑其他方法安装遇到错误亦可能可在本文的思路中找到答案本文安装环境CentOS 7安装目录 /export/server软件包存放位置 /export/software已安装好Hadoop3.3.2、Hive3.1.2、Kafka2.12-3.2.1等,可查看专栏其他文章。原创 2022-09-17 23:14:35 · 680 阅读 · 0 评论 -
VMWare中CentOS7增加系统盘空间
最近在个人笔记本建三台虚拟机集群,目的手打一遍安装框架,笔记本是512固态,虚拟机磁盘分配上就有点吝啬,每台只分配了20GB,结果大数据框架还没搭完。空间先凉凉了!集群:node1\node2\node3node1安装内容较多,先用node3进行分区测试,增加5GB。狗头.gif。原创 2022-09-17 17:24:17 · 561 阅读 · 1 评论 -
教小白白Hue安装部署
大数据软件生涩的命令行和蹩脚的可视化界面,让许多孩子望而生畏通过使用Hue,可以在浏览器端的Web控制台上与Hadoop集群进行交互,来分析处理数据,例如操作HDFS上的数据,运行MapReduce Job,执行Hive的SQL语句,浏览HBase数据库等等。原创 2022-09-16 23:51:15 · 1875 阅读 · 3 评论 -
Kafka监控工具Kafka-eagle安装与部署
本文使用3.0.1版本。原创 2022-09-11 23:25:16 · 1302 阅读 · 0 评论 -
三分钟学会Sqoop安装与部署
注解:狗头.jpg 这里解压后的文件名还是原文件名,所以各位小白希望该名称的可以解压后改,这里特地做了一次错误示范,解压前只能改压缩包名称,不能控制解压后文件名称,这里可以再重命名一次。用户可以将数据从结构化存储器抽取到Hadoop中,用于进一步的处理,抽取的数据可以被mapreduce程序使用,也可以被其他类似与Hive、HBase的工具使用。另外,sqoop是关系型数据库与Hadoop的数据交互,故需要配置关系型数据库,这里选择MySQL作为示例。sqoop是一个开源工具,数据搬运工,原创 2022-09-11 10:53:41 · 1924 阅读 · 0 评论 -
Flume安装部署
Apache Flume 是一个从可以收集例如日志,事件等数据资源,并将这些数量庞大的数据从各项数据资源中集中起来存储的工具/服务,或者数集中机制。flume具有高可用,分布式,配置工具,其设计的原理也是基于将数据流,如日志数据从各种网站服务器上汇集起来存储到HDFS,HBase等集中存储器中。目前官方网站已经更新到1.10.1,本安装过程中,采用老版本1.8.0。将安装包上传至 /export/software下。解压安装包至 /export/server。保存退出,FLume安装完成。原创 2022-09-05 19:14:57 · 1840 阅读 · 0 评论 -
Kafka原理及概念解释
zookeeper在kafka中扮演了重要的角色,kafka使用zookeeper进行元数据管理,保存broker注册信息,包括主题(Topic)、分区(Partition)信息等,选择分区leader,在低版本kafka消费者的offset信息也会保存在zookeeper中。kafka在zookeeper上存储的brokers节点信息如下:其中:是使用临时节点存储在线的是各个服务节点的信息,当下线后自动删除;原创 2022-09-03 22:48:40 · 500 阅读 · 0 评论 -
Kafka、zookeeper集群一键启动、一键关闭
保存退出,onekey文件夹下新建文件start-kafka.sh。在学习大数据的过程中,经常用到集群,软件的启停一个一个点击很麻烦。onekey文件夹下新建stop-kafka.sh。目录/export中新建onekey文件夹。先学习一个Kafka的一键启动和一键关闭。进入文件夹,新建文件slave。...原创 2022-09-15 23:07:57 · 994 阅读 · 0 评论 -
Zookeeper集群搭建
Zookeeper使用的时候,建议各位先找教程学习一下,要知道为什么用Zookeeper,了解其主要功能配置管理、分布式锁、集群管理、树形目录结构、创建节点、删除节点、服务端命令、客户端命令、Curator、选举机制等。...原创 2022-08-31 21:44:02 · 298 阅读 · 0 评论 -
Kafka集群搭建
https://.apache.org/downloads 官方推荐2.13原创 2022-08-24 23:04:59 · 568 阅读 · 0 评论 -
教小白搭建Hive分区分桶表
Hive表分为内部表、外部表,内部表全生命周期由hive管理,外部表在被删除时,文件不会被删除,关键字external,这里主要是内部表分区表:避免全表扫描,提高查询效率,分区字段不饿能是表中已经存在的字段映射文件:其中射手表示例如下。.....................原创 2022-08-18 20:20:27 · 1096 阅读 · 1 评论 -
解决Hive中表注释中文乱码
如果Hive在建表的时候希望有中文注释,可以提前到hive的元数据存储数据库MySQL中执行刚刚的五条命令。原创 2022-08-16 18:50:06 · 2515 阅读 · 0 评论 -
教小白30分钟实现分库分表
随着单位业务快速发展,数据库中的数据量猛增,访问性能也变慢了,优化迫在眉睫。分析了下问题出现在哪儿呢?关系型数据库本身比较容易成为系统瓶颈、单机存储容量、连接数、处理能力有限。当单表的数据量达到1000W或100G以后,由于查询纬度较多,及时添加从库、优化索引,做很多操作时性能仍下降严重。本文章采用三台虚拟机部署MySQL集群,利用MyCat中间件进行操作。......原创 2022-08-11 15:18:16 · 1442 阅读 · 0 评论 -
为什么要用Hive?
1、搭建Hadoop平台+Hive,计算使用mapreduce2、多大数据可以称大数据?对于谁来说?本文对于MySQL来说,另外不从功能特性等方面比较,就单单比较数据查询时间。原创 2022-08-08 12:15:29 · 739 阅读 · 0 评论 -
使用DataGrip对Hive进行操作
driver要替换一下,我用的是hive-jdbc-3.1.2-standalone.jar。空白位置右键attach Directory to Project。文件----new---project 命名hiveSQL。在电脑上无中文地方新建文件夹 即D:/hiveSQL。这个教程很多,下载安装简单,科学激活。端口号默认10000 密码未设置。下载位置:上传后补充。......原创 2022-08-06 19:12:11 · 1211 阅读 · 0 评论 -
Hive安装部署
1)Hadoop成功安装、可用启动Hive之前必须启动Hadoop集群,需特别注意,等HDFS安全模式关闭之后再启动HiveHive不是分布式安装运行的软件,其分布式的特性主要由Hadoop完成。包括分布式存储、分布式计算2)服务器基础环境集群时间同步、防火墙关闭、主机Host映射、免密登录、JDK安装。........................原创 2022-07-25 21:44:13 · 1243 阅读 · 0 评论 -
ETL工具--安装kettle
Kettle是一款国外开源的ETL工具,纯Java编写,可以在Window、Linux、Unix上运行,绿色无需安装,数据抽取高效稳定。Kettle 中文名称叫水壶,该项目的主程序员MATT 希望把各种数据放到一个壶里,然后以一种指定的格式流出。Kettle这个ETL工具集,它允许你管理来自不同数据库的数据,通过提供一个图形化的用户环境来描述你想做什么,而不是你想怎么做。Kettle中有两种脚本文件,transformation和job,transformation完成针对数据的基础转换,job则完成整个工原创 2022-07-12 09:35:30 · 785 阅读 · 0 评论 -
从零开始搭建Hadoop集群
当前最新版本是Workstation 16.2.X,官网下载,自己可以科学获取激活码,安装较简单。编辑----虚拟网络编辑器 点击NAT设置----将网关改为192.168.88.2,然后确定即可找到网络 VMware Network Adapter VMnet8 文件----新建虚拟机自定义(高级) 选择15.X,往上兼容一个大版本,如果不放心可以选12,但是安装的兼容产品也相对增加 全部下一步, 固态盘容量不大,只设计给了20GB 一台虚拟机部署完成效果 启动虚拟机之前要把系统连接上首次开原创 2022-07-11 21:23:08 · 1197 阅读 · 0 评论 -
如何在 Ubuntu 20.04 上安装 Tomcat 9
本文最先发布在:如何在 Ubuntu 20.04 上安装 Tomcat 9 - ITCoder这篇指南描述如何在Ubuntu20.04 上安装和配置 Tomcat 9 。ApacheTomcat是一个开源的 Web 服务器和 Java servlet 容器。它是世界上最流行的选择,用来构建基于 Java 的网站和应用。Tomcat 是一个轻量级,易于使用,并且有一个强壮的扩展生态系统。一、安装 JavaTomcat 9 要求在系统上安装 Java SE 8 或者更新版本。我们将会安装 ...原创 2022-01-25 09:04:42 · 1939 阅读 · 1 评论 -
Gitlab命令行简单使用
使用Gitlab拉取远程文件到本地,然后再创建新分支的流程: git clone url #将远程分支拉取到本地;例: git clone git@10.5.31.24:ycl/unitplatform.git git status / git branch #查看git的状态和分支情况,git branch -r 查看远程分支; git checkout –b abc #创建本地分支abc,并切换到该分支; 例:git checkout dev_ycl git ...原创 2021-03-04 10:48:22 · 486 阅读 · 1 评论