小刘同学-CSDN博客

原创电商数仓——DataX同步全量数据（同步MySQL数据到HDFS案例）

解决该问题的方案有两个：一是修改DataX HDFS Writer的源码，增加自定义null值存储格式的逻辑，可参考。

2024-07-11 10:40:40 1013

原创 DataX

Scheduler调度模块会对Task进行分组，每个Task组称为一个Task Group，每个TaskGroup负责以一定的并发度运行其所分得的Task，单个Task Group的并发度为5。当需要接入一个新的数据源的时候，只需要将此数据源对接到DataX，便能跟已有的数据源做到无缝数据同步。DataX的使用十分简单，用户只需根据自己同步数据的数据源和目的地选择相应的Reader和Writer，并将Reader和Writer的信息配置在一个json文件中，然后执行如下命令提交数据同步任务即可。

2024-07-10 15:23:57 955

原创电商数仓——日志数据采集

离线数仓同步数据Flume需将Kafka中topic_log的数据发往HDFS。并且对每天产生的用户行为日志进行区分，将不同天的数据发往HDFS不同天的路径。选择KafkaSource、FileChannel、HDFSSink进行数据传输。

2024-07-10 11:29:03 605

原创 Maxwell

Maxwell 是由美国Zendesk公司开源，用Java编写的MySQL变更数据抓取软件。它会实时监控MySQL数据库的数据变更操作（包括insert、update、delete），并将变更数据以 JSON 格式发送给 Kafka、Kinesi等流数据处理平台。

2024-07-09 13:39:23 874

原创 Flume日志采集

Apache Flume和Apache Kafka是两个常用的技术，它们可以结合起来构建一个强大的数据流水线。Flume中的Source负责从各种数据源收集数据并将其发送到Flume的Channel中。Source可以是多种类型，比如监听文件变化的TailFileSource接收网络传输数据的NetcatSource等。这些Source可以根据实际业务需求进行配置，实现对不同数据源的实时监控和数据提取。

2024-07-07 12:55:39 1110

原创电商数仓——数据模拟

（1）创建applog目录（2）上传文件到/opt/module/applog目录gmall-remake-mock-2023-02-17.jar用于生成数据application.yml是配置文件。

2024-07-07 10:22:23 310

原创电商数仓——JDK准备

Linux的环境变量可在多个文件中配置，如/etc/profile，/etc/profile.d/*.sh，~/.bashrc，~/.bash_profile等。但不管是login shell还是non-login shell都会加载/etc/profile.d/*.sh中的环境变量。2、将jdk导入主节点的/opt/software文件夹下（使用XShell中的Xftp或rz命令或其他的软件工具）non-login Shell（非登录Shell）：启动时会加载~/.bashrc。添加下面内容保存退出。

2024-07-04 16:01:33 271

原创 SSH免密登录配置

输入命令后敲三次回车，会生成两个文件id rsa（私钥）、id rsa.pub（公钥）2、将master节点的公钥拷贝到需要免密登录的目标节点上。（如果不配置自身节点的免密登录可能会导致集群启动失败）ssh-copy-id 目标节点。4、将该节点的公钥拷贝到要免密登录的目标机器上。1、在master节点上生成公钥和私钥。ssh-copy-id 目标节点。3、在其他节点生成公钥和私钥。

2024-07-04 15:41:08 61

原创集群分发脚本

在home目录下的用户目录下创建bin文件夹。修改脚本xsync的权限使其具有可执行的权限。xsync 需要分发的文件。cd /home/用户名。

2024-07-04 15:35:23 98

原创电商数仓项目——创建用户

为了保证Hadoop集群的安全性和稳定性，建议创建一个专门的Hadoop用户，用于管理和运行Hadoop服务。通过将Hadoop服务与其他系统用户隔离，可以有效地降低潜在的安全风险，并提高系统的稳定性和可靠性。(1) 在/opt目录下创建module、software文件夹。(3)查看module、software文件夹的所有者和所属组。3、在/opt目录下创建文件夹，并修改所属主和所属组。chown 用户名:用户名 /opt/module。(2)修改文件夹的所有者和所属组均为新创建的用户。

2024-07-04 15:26:15 167

原创使用Scrapy框架采集、解析网页云歌单数据，并使用双管道存储数据

分析页面的url变化：第一页offset为0，第二页的offset是35找到歌单详细页面的链接：然后到详细页面分析要爬取的数据接下来开始写代码。

2024-06-28 17:21:07 864

原创 Hadoop集群启动后缺少进程问题

NameNode在format初始化后会生成cluster ID（集群id）DataNode在启动后也会生成和NameNode一样的clusterID当NameNode突然被杀死或集群突然宕机，再次格式化后NameNode会生成新的clusterID，与未删除的DataNode的clusterID不一致就会导致该问题的发生。解决方法：① 先停止所有进程② 删除DataNode里的信息（默认在/tmp，如果修改了就在自己配置的目录下）hadoop102/103/104都要删除。

2024-04-15 16:40:39 327 2

原创 Hadoop集群启动的四种方式

使用脚本一键启动集群需要配置slaves配置文件和SSH免密登录hadoop01、hadoop02、hadoop03三台节点（视自身情况而定），为了在任意一台节点上执行脚本一键启动Hadoop服务，需要在三台虚拟机包括自身节点均配置SSH双向免密登录。将脚本放在/usr/bin目录下，创建脚本文件：hadoop.sh。在任意目录下都可以执行脚本文件。

2024-04-14 13:06:43 4225 2

原创 HDFS和YARN概述

4）Container：容器，相当于一台独立的服务器，里面封装了任务运行所需要的资源，如内存、CPU、磁盘、网络等。，如文件名、文件目录结构、文件属性，以及每个文件的块列表和块所在的DataNode等。3）ApplicationManager（AM）：管理单个任务运行。1）ResourceManager（RM）：管理整个集群资源。2）NodeManager（NM）：管理单个节点服务器资源。2集群上可以运行多个Application。（dn）：在本地文件系统。，以及块数据的校验和。注：1客户端可以有多个。

2024-03-16 14:57:42 185 1

原创 Kali Unable to locate package pdfcrack （安装失败）

进入到root 或在命令前加上sudo。1.打开sources.list文件。然后就可以成功进行安装所需的包。2.在文件中添加以下内容。

2024-03-13 16:52:58 228

m0_68533987的博客