- 博客(7)
- 收藏
- 关注
原创 伪分布式hadoop
复制/opt/hadoop/etc/hadoop/mapred-site.xml.tmplate 名为mapred-site.xml。步骤三:编辑/opt/hadoop/etc/hadoop/hadoop-env.sh文件。步骤四:编辑/opt/hadoop/etc/hadoop/core-site.xml文件。步骤五:编辑/opt/hadoop/etc/hadoop/hdfs-site.xml文件。步骤七:编辑/opt/hadoop/etc/hadoop/yarn-site.xml文件。
2024-04-26 17:46:14
1784
1
原创 【无标题】
Hive的安装与配置通常涉及以下步骤:确保Hadoop集群已经安装并运行。下载Hive的压缩包,并解压到集群中的某个节点上。设置环境变量,如HIVE_HOME和修改PATH变量。配置Hive的配置文件。将Hive的bin目录加入到PATH环境变量中,以便在任何地方都可以使用Hive命令。启动Hive服务。# 下载Hive# 解压Hive# 设置环境变量# 配置hive-site.xml# 修改hive-site.xml,设置数据库连接信息等。
2024-04-08 22:54:03
1501
原创 spark相关知识
Kafka, 是一种分布式的,基于发布/订阅的消息系统,类似于消息对列的功能,可以接收生产者(如webservice、文件、hdfs、hbase等)的数据,本身可以缓存起来,然后可以发送给消费者(同上),起到缓冲和适配的作;Flume:分布式、可靠、高可用的服务,它能够将不同数据源的海量日志数据进行高效收集、汇聚、移动,最后存储到一个中心化数据存储系统中,它是一个轻量级的工具,简单、灵活、容易部署,适应各种方式日志收集并支持failover和负载均衡。这样可以保证任务的继续进行,并从故障中恢复。
2024-03-08 17:32:23
679
1
原创 大数据特征及结构化数据和非结构化数据的对比等
HDFS是高容错性的,可以部署在低成本的硬件之上,HDFS提供高吞吐量地对应用程序数据访问,它适合大数据集的应用程序。2.非结构化数据:非结构化数据是数据结构不规则或不完整,没有预定义的数据模型,不方便用数据库二维逻辑表来表现的数据。3. 数据多样性:大数据包括结构化、半结构化和非结构化数据,其中非结构化数据越来越成为数据的主要部分。此外,大数据还有其他特征,如真实性(数据的质量)、复杂性(数据量巨大,来源多渠道)和价值(合理运用大数据,以低成本创造高价值)。6. 并行读取,若失败重新读取。
2024-03-07 21:27:51
892
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人