文梁钰-CSDN博客

原创伪分布式hadoop

复制/opt/hadoop/etc/hadoop/mapred-site.xml.tmplate 名为mapred-site.xml。步骤三：编辑/opt/hadoop/etc/hadoop/hadoop-env.sh文件。步骤四：编辑/opt/hadoop/etc/hadoop/core-site.xml文件。步骤五：编辑/opt/hadoop/etc/hadoop/hdfs-site.xml文件。步骤七：编辑/opt/hadoop/etc/hadoop/yarn-site.xml文件。

2024-04-26 17:46:14 1784 1

原创 hadoop

centos7搭建hadoop伪分布集群。

2024-04-25 21:43:44 546 1

原创【无标题】

Hive的安装与配置通常涉及以下步骤：确保Hadoop集群已经安装并运行。下载Hive的压缩包，并解压到集群中的某个节点上。设置环境变量，如HIVE_HOME和修改PATH变量。配置Hive的配置文件。将Hive的bin目录加入到PATH环境变量中，以便在任何地方都可以使用Hive命令。启动Hive服务。# 下载Hive# 解压Hive# 设置环境变量# 配置hive-site.xml# 修改hive-site.xml，设置数据库连接信息等。

2024-04-08 22:54:03 1501

原创配置永久ip和临时ip 配置yum仓库

我嘞个骚刚

2024-03-21 19:43:09 1506

原创【无标题】linux练习

2024-03-15 00:10:01 412 1

原创 spark相关知识

Kafka, 是一种分布式的，基于发布/订阅的消息系统,类似于消息对列的功能，可以接收生产者（如webservice、文件、hdfs、hbase等）的数据，本身可以缓存起来，然后可以发送给消费者（同上），起到缓冲和适配的作；Flume：分布式、可靠、高可用的服务，它能够将不同数据源的海量日志数据进行高效收集、汇聚、移动，最后存储到一个中心化数据存储系统中，它是一个轻量级的工具，简单、灵活、容易部署，适应各种方式日志收集并支持failover和负载均衡。这样可以保证任务的继续进行，并从故障中恢复。

2024-03-08 17:32:23 679 1

原创大数据特征及结构化数据和非结构化数据的对比等

HDFS是高容错性的，可以部署在低成本的硬件之上，HDFS提供高吞吐量地对应用程序数据访问，它适合大数据集的应用程序。2.非结构化数据:非结构化数据是数据结构不规则或不完整，没有预定义的数据模型，不方便用数据库二维逻辑表来表现的数据。3. 数据多样性：大数据包括结构化、半结构化和非结构化数据，其中非结构化数据越来越成为数据的主要部分。此外，大数据还有其他特征，如真实性（数据的质量）、复杂性（数据量巨大，来源多渠道）和价值（合理运用大数据，以低成本创造高价值）。6. 并行读取，若失败重新读取。

2024-03-07 21:27:51 892

2303_76536822的博客