自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(15)
  • 收藏
  • 关注

原创 电商数仓——DataX同步全量数据(同步MySQL数据到HDFS案例)

解决该问题的方案有两个:一是修改DataX HDFS Writer的源码,增加自定义null值存储格式的逻辑,可参考。

2024-07-11 10:40:40 1013

原创 DataX

Scheduler调度模块会对Task进行分组,每个Task组称为一个Task Group,每个TaskGroup负责以一定的并发度运行其所分得的Task,单个Task Group的并发度为5。当需要接入一个新的数据源的时候,只需要将此数据源对接到DataX,便能跟已有的数据源做到无缝数据同步。DataX的使用十分简单,用户只需根据自己同步数据的数据源和目的地选择相应的Reader和Writer,并将Reader和Writer的信息配置在一个json文件中,然后执行如下命令提交数据同步任务即可。

2024-07-10 15:23:57 955

原创 电商数仓——日志数据采集

离线数仓同步数据Flume需将Kafka中topic_log的数据发往HDFS。并且对每天产生的用户行为日志进行区分,将不同天的数据发往HDFS不同天的路径。选择KafkaSource、FileChannel、HDFSSink进行数据传输。

2024-07-10 11:29:03 605

原创 Maxwell

Maxwell 是由美国Zendesk公司开源,用Java编写的MySQL变更数据抓取软件。它会实时监控MySQL数据库的数据变更操作(包括insert、update、delete),并将变更数据以 JSON 格式发送给 Kafka、Kinesi等流数据处理平台。

2024-07-09 13:39:23 874

原创 Flume日志采集

Apache Flume和Apache Kafka是两个常用的技术,它们可以结合起来构建一个强大的数据流水线。Flume中的Source负责从各种数据源收集数据并将其发送到Flume的Channel中。Source可以是多种类型,比如监听文件变化的TailFileSource接收网络传输数据的NetcatSource等。这些Source可以根据实际业务需求进行配置,实现对不同数据源的实时监控和数据提取。

2024-07-07 12:55:39 1110

原创 电商数仓——数据模拟

(1)创建applog目录(2)上传文件到/opt/module/applog目录gmall-remake-mock-2023-02-17.jar用于生成数据application.yml是配置文件。

2024-07-07 10:22:23 310

原创 电商数仓——JDK准备

Linux的环境变量可在多个文件中配置,如/etc/profile,/etc/profile.d/*.sh,~/.bashrc,~/.bash_profile等。但不管是login shell还是non-login shell都会加载/etc/profile.d/*.sh中的环境变量。2、将jdk导入主节点的/opt/software文件夹下(使用XShell中的Xftp或rz命令或其他的软件工具)non-login Shell(非登录Shell):启动时会加载~/.bashrc。添加下面内容保存退出。

2024-07-04 16:01:33 271

原创 SSH免密登录配置

输入命令后敲三次回车,会生成两个文件id rsa(私钥)、id rsa.pub(公钥)2、将master节点的公钥拷贝到需要免密登录的目标节点上。(如果不配置自身节点的免密登录可能会导致集群启动失败)ssh-copy-id 目标节点。4、将该节点的公钥拷贝到要免密登录的目标机器上。1、在master节点上生成公钥和私钥。ssh-copy-id 目标节点。3、在其他节点生成公钥和私钥。

2024-07-04 15:41:08 61

原创 集群分发脚本

在home目录下的用户目录下创建bin文件夹。修改脚本xsync的权限使其具有可执行的权限。xsync 需要分发的文件。cd /home/用户名。

2024-07-04 15:35:23 98

原创 电商数仓项目——创建用户

为了保证Hadoop集群的安全性和稳定性,建议创建一个专门的Hadoop用户,用于管理和运行Hadoop服务。通过将Hadoop服务与其他系统用户隔离,可以有效地降低潜在的安全风险,并提高系统的稳定性和可靠性。(1) 在/opt目录下创建module、software文件夹。(3)查看module、software文件夹的所有者和所属组。3、在/opt目录下创建文件夹,并修改所属主和所属组。chown 用户名:用户名 /opt/module。(2)修改文件夹的所有者和所属组均为新创建的用户。

2024-07-04 15:26:15 167

原创 使用Scrapy框架采集、解析网页云歌单数据,并使用双管道存储数据

分析页面的url变化:第一页offset为0,第二页的offset是35找到歌单详细页面的链接:然后到详细页面分析要爬取的数据接下来开始写代码。

2024-06-28 17:21:07 864

原创 Hadoop集群启动后缺少进程问题

NameNode在format初始化后会生成cluster ID(集群id)DataNode在启动后也会生成和NameNode一样的clusterID当NameNode突然被杀死或集群突然宕机,再次格式化后NameNode会生成新的clusterID,与未删除的DataNode的clusterID不一致就会导致该问题的发生。解决方法:① 先停止所有进程② 删除DataNode里的信息(默认在/tmp,如果修改了就在自己配置的目录下)hadoop102/103/104都要删除。

2024-04-15 16:40:39 327 2

原创 Hadoop集群启动的四种方式

使用脚本一键启动集群需要配置slaves配置文件和SSH免密登录hadoop01、hadoop02、hadoop03三台节点(视自身情况而定),为了在任意一台节点上执行脚本一键启动Hadoop服务,需要在三台虚拟机包括自身节点均配置SSH双向免密登录。将脚本放在/usr/bin目录下,创建脚本文件:hadoop.sh。在任意目录下都可以执行脚本文件。

2024-04-14 13:06:43 4225 2

原创 HDFS和YARN概述

4)Container:容器,相当于一台独立的服务器,里面封装了任务运行所需要的资源,如内存、CPU、磁盘、网络等。,如文件名、文件目录结构、文件属性,以及每个文件的块列表和块所在的DataNode等。3)ApplicationManager(AM):管理单个任务运行。1)ResourceManager(RM):管理整个集群资源。2)NodeManager(NM):管理单个节点服务器资源。2集群上可以运行多个Application。(dn):在本地文件系统。,以及块数据的校验和。注:1客户端可以有多个。

2024-03-16 14:57:42 185 1

原创 Kali Unable to locate package pdfcrack (安装失败)

进入到root 或 在命令前加上sudo。1.打开sources.list文件。然后就可以成功进行安装所需的包。2.在文件中添加以下内容。

2024-03-13 16:52:58 228

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除