大数据技术
文章平均质量分 93
大数据技术
撕得失败的标签
就算累得快成二维码了,扫一扫也能找到那么一丢丢生活里的幽默
展开
-
MapReduce 实践题:Web 访问日志分析与异常检测
你被要求设计和实现一个基于 MapReduce 的大规模 Web 访问日志分析与异常检测系统。该系统的目标是从每日数百万条访问日志中提取有用的信息,并检测出潜在的异常访问行为。原创 2024-06-23 19:02:46 · 972 阅读 · 0 评论 -
Spark 集群搭建
配置内容:(添加到末尾处,也可也直接输入。压缩包解压,解压后重命名。提示:启动后不要关闭。原创 2023-12-28 23:50:26 · 768 阅读 · 0 评论 -
HBase 集群搭建
单点关闭,去日志里查找问题,日志里会提供关于问题的更多详细信息和上下文。集群将陷入不健康的状态,并且此时的工作状态并不会维持太久。托管的, 那么每个集群节点只能使用一个实例,并且仅适用于测试。托管的, 那么每个集群节点只能使用一个实例,并且仅适用于测试。,了解如何创建表,添加数据,扫描插入,最后禁用和删除表。的类路径查找功能,类路径的查找可能会引发问题或冲突。的类路径查找功能,类路径的查找可能会引发问题或冲突。版本的,所以这里选择的是。配置的更多信息,包括使用。的兼容性问题,越新越好,原创 2023-12-24 23:11:42 · 1784 阅读 · 0 评论 -
ZooKeeper 集群搭建
Zookeeper是一个开源的分布式服务协调框架,由Apache软件基金会开发和维护。设计目标提供分布式环境中的数据一致性。为分布式应用程序提供协调服务。简化复杂分布式系统的构建和管理。功能特性数据模型:Zookeeper使用一个树形结构的数据模型(Znode),每个节点可以存储数据并具有版本号。一致性保证:Zookeeper保证在客户端看到的数据是一致的,提供顺序一致性、原子性和单一系统映像等特性。分布式锁。原创 2023-12-21 13:29:56 · 2070 阅读 · 1 评论 -
报错:Permission denied. user=dr.who is not the owner of inode=/tmp
关闭权限检查可能会导致严重的安全和隐私问题,因为它允许任何用户访问、读取、写入或删除文件系统中的数据。这样做意味着任何人都可以读取、修改或删除文件,包括可能的恶意用户或程序。,其解释为在静态网络过滤器上渲染内容时要作为过滤器的用户名。文件系统中,这种权限模式通常被认为是“完全开放”的,因为它允许任何人访问、修改或执行该目录及其内容。命令会将指定目录的权限设置为所有者、组和其他用户都有读(r)、写(w)和执行(x)权限。命令可以改变文件或目录的所有者和/或组。命令可以改变文件或目录的权限。原创 2023-12-07 22:50:09 · 1038 阅读 · 0 评论 -
【Windows下】Eclipse 尝试 Mapreduce 编程
要在Windows下使用Eclipse进行MapReduce编程,你需要配置Hadoop环境,并在Eclipse中设置相关的开发工具。以下是一个简化的步骤指南:安装和配置Hadoop:下载并解压Hadoop的发行版到一个没有空格或特殊字符的目录。配置系统环境变量:创建名为HADOOP_HOME的变量,其值为你的Hadoop解压路径;将%HADOOP_HOME%\bin添加到系统Path变量中。下载依赖库:获取适用于Windows的hadoop.dll和winutils.exe文件,通常可以从Gi原创 2023-12-04 21:52:30 · 1316 阅读 · 0 评论 -
Hadoop 概述
Hadoop 是一个由 Apache 基金会开发的开源分布式计算框架,旨在处理和分析海量数据。它提供了对大数据进行存储、处理和分析的基础架构,并且可以在低成本的硬件集群上运行。通常情况下 Hadoop 是指一个更广泛的概念——Hadoop 生态圈。Hadoop Distributed File System (HDFS) 是 Hadoop 的核心组件之一,提供了一个高度容错性的分布式文件系统。原创 2023-12-02 15:03:36 · 210 阅读 · 0 评论 -
Hadoop运行模式及目录结构
Hadoop的运行模式主要包括本地模式、伪分布式模式以及完全分布式模式。本地模式:单机运行,主要用于演示官方案例,生产环境不使用。伪分布式模式:单机运行,但具备Hadoop集群的所有功能,一台服务器模拟一个分布式的环境。完全分布式模式:多台服务器组成分布式环境,生产环境使用。至于Hadoop的目录结构,主要包括以下几个部分:bin目录:存放对Hadoop相关服务(hdfs,yarn,mapred)进行操作的脚本。etc目录:Hadoop的配置文件目录,存放Hadoop的配置文件。原创 2023-11-29 21:15:31 · 253 阅读 · 0 评论 -
搭建部署Hadoop2.x和3.x的区别
NameNode (NN) 端口:在Hadoop 2.x中,NameNode的默认HTTP UI端口是50070,内部通常端口是8020/9000。在Hadoop 3.x中,这个端口被改为9870,内部通常端口是8020/9000/9820。DataNode (DN) 端口:Hadoop 2.x中,DataNode的默认HTTP UI端口是50075。在Hadoop 3.x中,该端口变更为9864。YARN ResourceManager (RM) 端口:Hadoop 2.x中的Resourc原创 2023-11-30 20:47:47 · 414 阅读 · 0 评论 -
最小化安装 Neokylin7.0 用于搭建 Hadoop 集群
后面可以用101进行源码的编译,利用模板机hadoop100,克隆三台虚拟机:hadoop102 hadoop103 hadoop104。最小化安装Neokylin7.0,硬盘50G,手动配置ipv4,主机名:hadoop102,子网掩码:255.255.255.0,网关:192.168.88.2(以自己电脑的为准,倒数第二位会不一样),(配置好环境后再克隆其他集群信息)网络适配器选择NAT模式,Vmare在NAT模式默认网关末尾为2,硬盘选大一点,内容可以调到4G、8G,如下图所示。原创 2023-12-01 23:03:14 · 410 阅读 · 0 评论 -
搭建Hadoop集群过程中常见错误的解决方案
出现cannot creat directory或cannot creat file类型如果使用的是 user 用户,多数情况下是因为文件权限问题,hadoop3.3.1、big_data(存数据)、log_hadoop(存日志) 文件都要将权限给 user。原创 2023-11-30 22:39:07 · 437 阅读 · 0 评论 -
Hadoop 完全分布式集群搭建
Hadoop完全分布式搭建需要按照以下步骤进行:安装虚拟机:首先需要安装虚拟机软件,例如VMware等,然后在虚拟机软件中创建新的虚拟机,设置虚拟机的操作系统、内存、处理器等参数。配置网络:在虚拟机中配置网络,使得虚拟机可以与外部网络进行通信。安装Hadoop:在虚拟机中安装Hadoop,并配置相关的环境变量。配置Hadoop集群:根据需要配置Hadoop集群的角色分配,例如HDFS的NameNode和DataNode等。配置文件系统:在Hadoop集群中创建文件系统,并设置相关的配置参数。原创 2023-11-29 23:12:19 · 1572 阅读 · 1 评论 -
Flume 安装部署
Flume(Apache Flume)是一个开源的分布式日志收集、聚合和传输系统,属于 Apache 软件基金会的项目之一。其主要目标是简化大规模数据处理中日志数据的采集、移动和处理过程。Flume 的设计灵感来自于 Google 的 Chubby 论文和 Facebook 的 Scribe 系统。架构模型: Flume 采用了分布式、可扩展的架构。它的基本架构包括多个组件,其中关键组件包括代理(Agent)、通道(Channel)和收集器(Collector)等。原创 2023-12-02 23:54:40 · 415 阅读 · 0 评论 -
Hive 安装部署
(1)嵌入模式:使用内嵌的 Derby 数据库存储元数据,这是 Hive 最简单的部署方式在嵌入模式下运行 Hive 时,会在当前目录下生成元数据文件,只能有一个 Hive 客户端使用该目录下的元数据文件,这就意味着嵌入模式下的 Hive 不支持多会话连接,并且不同目录的元数据文件无法共享,因此不适合生产环境,只适合测试环境。这样,无论在任何目录下通过 Hive 客户端工具,访问的元数 据信息是一致的,并且可以实现多个用户同时访问,从而实现元数据的共享。本地模式支持元数据共享,并且支持本地多会话连接。原创 2023-12-03 22:43:24 · 470 阅读 · 0 评论 -
Kettle 安装配置
Kettle的7.1版本的太旧了,容易出现闪退,右击就死机等bug,9.x太新了也会有bug,下载8.2版本的安装包。Kettle把Hive当作一个数据库,支持连接Hive Server和Hive Server 2,数据库连接类型的名字分别为Hadoop Hive 和 Hadoop Hive 2。完成了Kettle的安装之后,我们还需要通过配置,使得Kettle可以与Hadoop 协同工作。在Kettle工作区左侧的“主对象树”标签中,选择“DB 连接” → 右键“新建”,对话框中输入如图所示的属性值。原创 2023-12-03 22:57:04 · 916 阅读 · 0 评论 -
使用 Kettle 完成数据 ETL
在 Spoon 主界面的左侧项目栏的“核心对象”中,选择“Big Data”→“Hadoop File Output”, 拖拽该控件到右侧的设计区域,并与“剪切字符串”控件进行连接,连接时会出现两个选项,即“主输入步骤”和“错误处理步骤”,这里需要选择“主输入步骤”。双击鼠标打开“剪切字符串”控件属性设置对话框,将“输入流字段”设置为“Field1”, “输出流字段”不用改变,“起始位置”设置为 0,“结束位置”设置为10,单击“确定”按钮。如果转换过程成功执行,所有控件右上角都会显示“勾号”。原创 2023-12-03 23:06:10 · 611 阅读 · 0 评论