自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(5)
  • 收藏
  • 关注

原创 flume的搭建与部署

1.什么是flumeFlume是一个分布式、高可靠、高可用的用来收集、聚合、转移不同来源的大量日志数据到中央数据仓库的工具,是Hadoop的相关组件之一。其传输数据的基本单位为:Event主要分为:Source、Sink、Channel这三个部分(1)、Source:从数据源接收数据;(2)、Sink:传递数据给目的地;(3)、Channel:连接Source和Sink的管道,数据缓存2.flume的安装Flume 1.9用户手册中文版 — 可能是目前翻译最完整的版本了。

2023-10-15 16:16:23 301 1

原创 有关Hadoop集群2.0

rm -d 直接把想删除的目录的硬链接数据删除成0,删除该目录。mv -u 当源文件比目标文件新或目标文件不存在时,才执行移动操作。mv -b 当目标文件或目录存在时,在执行覆盖前,会为其创建一个备份。mv -f 若目标文件与源文件名字相同,不会询问,直接覆盖源文件。cp -b 覆盖已存在的文件目标前将目标文件备份。mv -i 若目标文件与源文件名字相同,会询问是否覆盖源文件。

2023-10-05 18:58:31 44

原创 有关Hadoop集群

含义:是Hadoop中一个用于处理和分析大型数据集的变成模型和软件框架,它将作业分解成多个并行的Map和Reduce任务,并自动处理作业的并行化和故障恢复。Hadoop集群的优点包括高可具有很高的抗故障能力,因为每个数据块都复制到其他节点上,以确保在单个节点发生故障时不会丢失数据。靠性,高可扩展性和成本效益,它可以处理大规模数据集,并提供了强大的分布式计算框架,用于分析和处理这些数据集。常用命令:hdfs是指Hadoop hdfs系统的命令,其常用命令包括:1.ls命令;3.mkdir命令;

2023-10-03 22:38:47 62

原创 Hadoop集群搭建

2.准备好搭建环境:安装JAVA,一定要确保所有的计算机都安装好了适当版本的java,因为hadoop是使用Java开发的,依赖于Java环境,因此搭建虚拟机需要安装jdk,但是虚拟机自带jdk非我们想要的版本,所以要将其删除下载新的适配版本的jdk。配置Hadoop的配置文件:1.vim core-site.xml 设置Hadoop的通用配置。查看Hadoop是否安装成功:hadoop version。1.下载Hadoop:在Hadoop官网下载需要版本的hadoop,并且解压到相应的文件夹中。

2023-09-24 15:38:01 53 1

原创 数据采集与处理

1.首先安装requests库,安装完成后在相应得到文件中导入requests包。注释:'wb'表示以二进制写方式打开。4.设置图片的名称和要写入的格式。3.使用get方法请求加载图片。2.获取图片的url地址。运行结果,点击网址进入即可。

2023-09-17 15:22:06 1147 2

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除