大数据-Hadoop
文章平均质量分 92
灯惉
IT的童鞋们,永远在路上,在前进的路上,而我们这些IT民工永远追赶着时代的步伐
展开
-
Apache Flink不止于计算,数仓架构或兴起新一轮变革
2021 年初,在 InfoQ 编辑部策划的全年技术趋势展望中,我们提到大数据领域将加速拥抱“融合”(或“一体化”)演进的新方向。本质是为了降低大数据分析的技术复杂度和成本,同时满足对性能和易用性的更高要求。如今,我们看到流行的流处理引擎 Apache Flink(下称 Flink)沿着这个趋势又迈出了新的一步。1 月 8 日上午,Flink Forward Asia 2021 以线上会议的形式拉开帷幕。今年是 Flink Forward Asia(下文简称 FFA)落地中国的第四个年头,也是 Flin原创 2022-01-10 10:12:24 · 194 阅读 · 0 评论 -
别再比较Hadoop和Spark了,那不是设计人员的初衷
别再比较Hadoop和Spark了,那不是设计人员的初衷2016-03-13 中国大数据 程序员日记 对Hadoop与Spark孰优孰劣这个问题,最准确的观点就是,设计人员旨在让Hadoop和Spark在同一个团队里面协同运行。直接比较Hadoop和Spark有难度,因为它们处理的许多任务都一样,但是在一些方面又并不相互重叠。转载 2016-03-13 21:22:20 · 399 阅读 · 0 评论 -
Hadoop生态系统在壮大:十大炫酷大数据项目
在开发人员开发Hadoop以克服大数据带来的挑战之后的10年间,这些技术的生态系统在不断发展壮大。Apache软件基金会下面有众多的开源大数据技术项目。本文介绍一些重要项目,并顺便了解几个新兴项目。管理和分析大数据已经变成了重大挑战,数量急剧增加的信息从社交媒体、连接到物联网中“物件”的传感器、结构化数据、非结构化数据以及可以收集的其他一切数据收集而来。为了应对这项任务,开发人员已转载 2016-03-13 10:49:06 · 927 阅读 · 0 评论 -
机器学习的十三套框架
导读过去几年以来,机器学习已经开始以前所未有的方式步入主流层面。这种趋势并非单纯由低成本云环境乃至极为强大的GPU硬件所推动; 除此之外,面向机器学习的可用框架也迎来了爆发式增长。此类框架全部为开源成果,但更重要的是它们在设计方面将最为复杂的部分从机器学习中抽象了出来,从而保证相关技术方案能够为更多开发人员服务。在今天的文章中,我们将共同了解十三款机器学习框架,一部分去年刚转载 2016-03-05 22:21:28 · 640 阅读 · 0 评论 -
Hadoop部署目录的作用
一、Hadoop home目录 这是Hadoop home软件安装所在的目录,尽管名称里含有home,但通常不要将Hadoop安装在用户的home目录。当配置正确后,该目录是只读的,如果Hadoop是通过包来安装的,那么该目录通常在/usr/local、/opt或/usr中。二、DataNode数据目录 其中的一个或多个目录被DataNod原创 2016-03-03 21:41:16 · 674 阅读 · 0 评论 -
MapReduce两种主要的后台程序-jobtracker和tasktracker
一、Jobtracker Jobtracker是主线程,它负责接收客户作业提交,调度任务到工作节点上运行,并提供诸如监控工作节点状态及任务进度等管理功能,一个MapReduce集群有一个jobtracker,一般运行在可靠的硬件上。 tasktracker是通过周期性的心跳来通知jobtracker其当前的健康状态,每一次心跳包含了可用的map和redu原创 2016-03-02 23:01:37 · 5356 阅读 · 0 评论 -
HIVE 简介
1、什么是Hive?Hive是基于Hadoop文件系统之上的数据仓库架构,它为数据仓库的管理提供了许多功能:数据ETL(抽取、转换、加载)工具、数据存储管理和大型数据集的查询和分析能力。同时Hive还定义了类SQL的语言--Hive QL,Hive QL允许用户进行和SQL相似的操作,它可以将结构化的数据文件映射为一张数据库表,并提供简单的SQL查询功能。还允许开发人员方便的使用Mapper和原创 2015-11-30 17:15:23 · 442 阅读 · 0 评论 -
MapReduce原理
1、MapReduce简介MapReduce是现今一个非常流行的分布式计算框架,它被设计成用于并行计算海量数据,第一个提出该技术框架的是Google公司,MapReduce框架的核心步骤主要分两部分:Map和Reduce,当你向MapReduce提交一个计算作业时,它会首先把计算作业拆分成若干个Map任务,然后分配到不同的节点上去执行,每一个Map任务处理输入数据中的一部分,当Map任务完成后原创 2015-11-20 10:50:28 · 698 阅读 · 0 评论 -
Hadoop HDFS原理
1 Hadoop搭建环境:虚拟机操作系统: CentOS6.6 64位,单核,1G内存JDK:1.7.0_55 64位Hadoop:1.1.22 HDFS原理HDFS(Hadoop distributied File System)是一个分布式文件系统,是谷歌GFS文件系统的山寨版,它具有高容错性并提供了高吞吐量的数据访问,非常适合大规模数据集上的应用,它提供了一个高容错性原创 2015-11-18 22:26:05 · 628 阅读 · 0 评论 -
Hadoop HDFS
Hadoop文件系统使用分布式文件系统设计开发。它是运行在普通硬件。不像其他的分布式系统,HDFS是高度容错以及使用低成本的硬件设计。HDFS拥有超大型的数据量,并提供更轻松地访问。为了存储这些庞大的数据,这些文件都存储在多台机器。这些文件都存储以冗余的方式来拯救系统免受可能的数据损失,在发生故障时。HDFS也使得可用于并行处理的应用程序。 HDFS的特点 它适转载 2015-11-17 17:02:56 · 386 阅读 · 0 评论 -
Hadoop大数据解决方案
传统的企业方法 在这种方法中,一个企业将有一个计算机存储和处理大数据。对于存储而言,程序员会自己选择的数据库厂商,如Oracle,IBM等的帮助下完成,用户交互使用应用程序进而获取并处理数据存储和分析。 局限性 这种方式能完美地处理那些可以由标准的数据库服务器来存储,或直至处理数据的处理器的限制少的大量数据应用程序。但是,当涉及到处理大量的可原创 2015-11-17 16:54:01 · 1031 阅读 · 0 评论 -
Hadoop是什么?
Hadoop是使用Java编写,允许分布在集群,使用简单的编程模型的计算机大型数据集处理的Apache的开源框架。Hadoop框架应用工程提供跨计算机集群的分布式存储和计算的环境。 Hadoop是专为从单一服务器到上千台机器扩展,每个机器都可以提供本地计算和存储。 Hadoop的架构在其核心,Hadoop主要有两个层次,即:加工/计算层(MapReduce),以及存储层原创 2015-11-17 17:00:17 · 698 阅读 · 0 评论