Hadoop
lianhedaxue
这个作者很懒,什么都没留下…
展开
-
Spark 安装
Spark 安装Spark是Hadoop的子项目。因此,最好是基于Linux系统安装Spark 。下列步骤显示如何安装Apache Spark。第1步:验证安装Java安装Java是安装Spark强制性的事情之一。 试试下面的命令来验证Java版本。$java -version 如果Java已经安装在系统上,就能看到类似以下的响应结果 −原创 2017-07-04 10:02:56 · 352 阅读 · 0 评论 -
Hadoop HDFS操作
Hadoop HDFS操作启动HDFS首先,格式化配置HDFS文件系统,打开NameNode(HDFS服务器),然后执行以下命令。$ hadoop namenode -format 格式化HDFS后,启动分布式文件系统。以下命令将启动名称节点和数据节点的集群。$ start-dfs.sh HDFS的文件列表加载服务器信息后,使用'转载 2017-07-07 14:33:39 · 326 阅读 · 0 评论 -
Hadoop是什么?
Hadoop是什么?Hadoop是使用Java编写,允许分布在集群,使用简单的编程模型的计算机大型数据集处理的Apache的开源框架。 Hadoop框架应用工程提供跨计算机集群的分布式存储和计算的环境。 Hadoop是专为从单一服务器到上千台机器扩展,每个机器都可以提供本地计算和存储。Hadoop的架构在其核心,Hadoop主要有两个层次,即:加工/转载 2017-07-07 11:21:14 · 481 阅读 · 0 评论 -
Hadoop大数据解决方案
Hadoop大数据解决方案传统的企业方法在这种方法中,一个企业将有一个计算机存储和处理大数据。对于存储而言,程序员会自己选择的数据库厂商,如Oracle,IBM等的帮助下完成,用户交互使用应用程序进而获取并处理数据存储和分析。局限性这种方式能完美地处理那些可以由标准的数据库服务器来存储,或直至处理数据的处理器的限制少的大量数据应用程序。但是,当涉转载 2017-07-07 10:08:12 · 635 阅读 · 0 评论 -
Hadoop教程
Hadoop教程Hadoop是一个开源框架,它允许在整个集群使用简单编程模型计算机的分布式环境存储并处理大数据。它的目的是从单一的服务器到上千台机器的扩展,每一个台机都可以提供本地计算和存储。“90%的世界数据在过去的几年中产生”。由于新技术,设备和类似的社交网站通信装置的出现,人类产生的数据量每年都在迅速增长。美国从一开始的时候到2003年产生的数据量为5十亿千兆字节转载 2017-07-07 09:54:19 · 465 阅读 · 0 评论 -
R语言开发环境设置
R语言开发环境设置本地开发环境设置如果愿意设置R语言的本地开发环境,可以按照在你的电脑按照下面的步骤。Windows下安装可以下载 Windows Installer 版本的R:R-3.2.2的Windows(32/64位),并将其保存在本地目录。网站大概是这个样子,比较丑:Windows下安装R语言这是一个Windows安装程序(.转载 2017-07-04 15:21:33 · 803 阅读 · 0 评论 -
Elasticsearch环境安装配置
Elasticsearch环境安装配置安装Elasticsearch的步骤如下 -第1步 - 查看安装在计算机上的java的最低版本,它要求java 7或以上或最新的版本。可以通过执行以下操作进行检查 -在Windows操作系统(OS)(使用命令提示符) -java -versionBash在UNIX/Linux操作系统(使用终端) -转载 2017-07-04 15:20:02 · 439 阅读 · 0 评论 -
Hadoop配置使用Solr
Hadoop配置使用SolrSolr可以和Hadoop一起使用。 由于Hadoop是用于处理大量数据,Solr帮助我们从这么大数据源中找到所需的信息。在本节中,我们将了解如何在系统上安装Hadoop。下载Hadoop下面给出了如何将Hadoop下载到系统中的步骤。第1步 - 打开Hadoop主页 - www.hadoop.apache.org/。 单转载 2017-07-04 15:18:17 · 3160 阅读 · 1 评论 -
Hadoop环境安装设置
Hadoop环境安装设置Hadoop由GNU/Linux平台支持(建议)。因此,需要安装一个Linux操作系统并设置Hadoop环境。如果有Linux操作系统等,可以把它安装在VirtualBox(要具备在 VirtualBox内安装Linux经验,没有装过也可以学习试着来)。安装前设置在安装Hadoop之前,需要进入Linux环境下,连接Linux使用SSH(转载 2017-07-04 15:16:58 · 280 阅读 · 0 评论 -
Sqoop安装
Sqoop安装由于Sqoop是Hadoop的一个子项目,它只能工作在Linux操作系统。这里需要按照下面系统上给定安装Sqoop的步骤。第1步:验证JAVA安装在安装Sqoop之前,需要确定是否已经在系统上安装Java。用下面的命令来验证Java安装:$ java –version如果Java已经安装在系统上,应该能看到如下回应:ja转载 2017-07-04 15:14:42 · 318 阅读 · 0 评论 -
HBase安装
HBase安装本章将介绍如何安装HBase和初始配置。 需要用Java和Hadoop来处理HBase,所以必须下载java和Hadoop并安装系统中。安装前设置安装Hadoop在Linux环境下之前,需要建立和使用Linux SSH(安全Shell)。按照下面设立Linux环境提供的步骤。创建一个用户首先,建议从Unix创建一个单独的Ha转载 2017-07-04 15:13:17 · 411 阅读 · 0 评论 -
Hive安装
Hive安装所有Hadoop的子项目,如Hive, Pig,和HBase 支持Linux的操作系统。因此,需要安装Linux OS。以下是为Hive的安装执行的简单步骤:第1步:验证JAVA安装在Hive安装之前,Java必须在系统上已经安装。使用下面的命令来验证是否已经安装Java:$ java –version如果Java已经安装在系统上,就转载 2017-07-04 15:11:06 · 228 阅读 · 0 评论 -
Zookeeper安装配置
Zookeeper安装配置在安装ZooKeeper之前,请确保在以下任何操作系统上运行 −任意Linux OS − 支持开发和部署。它是演示应用程序的首选。Windows OS − 仅支持开发。Mac OS − 仅支持开发。ZooKeeper服务器是用Java编写创建,它运行在JVM。所以需要使用JDK 6或更高版本。现在,请转载 2017-07-04 15:09:02 · 255 阅读 · 0 评论 -
Spark编程
Spark编程Spark 包含两种不同类型的共享变量 - 一个是广播变量和第二是累加器广播变量 − 采用高效,分发大值累加器 − 用于聚集特定集合的信息广播变量广播变量允许程序员保持每台机器上一个只读变量缓存,而不是运输它的一个副本任务。它们可用于,例如,给每一个节点,一个大的输入数据集的副本,以有效的方式。Spark 也尝试分发广播变量来使用高转载 2017-07-04 13:21:39 · 334 阅读 · 0 评论 -
Spark部署
Spark部署Spark应用程序使用spark-submit(shell命令)来部署在集群中的Spark应用程序。它通过一个统一的接口采用全各自的集群管理器。因此,您不必每一个应用程序配置。示例让我们同样以计算字数为例子,在使用之前,使用shell命令。 在这里,我们考虑同样 spark 应用程序的例子。简单输入下面的文字是输入数据,并命转载 2017-07-04 13:19:14 · 322 阅读 · 0 评论 -
Spark核心编程
Spark核心编程Spark 核心是整个项目的基础。它提供了分布式任务调度,调度和基本的 I/O 功能。Spark 使用一种称为RDD(弹性分布式数据集)一个专门的基础数据结构,是整个机器分区数据的逻辑集合。RDDS可以用两种方法来创建的;一个是在外部存储系统引用的数据集,第二个是通过应用转换(如map, filter, reducer, join)在现有RDDS。RDD抽象通过语转载 2017-07-04 10:50:53 · 377 阅读 · 0 评论 -
Hadoop命令参考
Hadoop命令参考在“$HADOOP_HOME/bin/hadoop fs” 里有更多的命令。./bin/hadoop DFS 列出所有可以使用在FsShell系统上运行的命令。此外,$HADOOP_HOME/bin/hadoop fs -help 命令名称会显示一个简短的用法。所有表的操作如下所示。以下是使用参数一般方式:"" means any file转载 2017-07-07 14:56:07 · 331 阅读 · 0 评论