Big DATA
胖胖のALEX
这个作者很懒,什么都没留下…
展开
-
[hadoop]HDFS(Hadoop分布式文件系统)(一)
Hadoop的起源:Hadoop是Google的集群系统的开源实现Google集群系统:GFS(Google File System)、 MapReduce、BigTableHadoop主要由HDFS(Hadoop Distributed File System Hadoop分布式文件系统)、MapReduce和HBase组成Hadoop的初衷是为了解决Nutch的海量数据爬取原创 2016-05-12 14:03:24 · 5340 阅读 · 0 评论 -
[hadoop]hadoop2安装与配置(八)
下载hadoop-2.5.1-x64.tar.gz安装包 下载地址:http://download.csdn.net/detail/colacat911/7924541下载zookeeper-3.4.6.tar.gz安装包 下载地址:http://apache.fayea.com/zookeeper/zookeeper-3.4.6/上传到node1服务器 ~/hadoop-2.5.1-x64.tar.gz、~/zookeeper-3.4.6.tar.gz准备四台centos7服务器,主机名分别为nod原创 2016-05-25 09:39:04 · 496 阅读 · 0 评论 -
Elasticsearch与Solr
转载:http://blog.csdn.net/jameshadoop/article/details/44905643Elasticsearch简介*Elasticsearch是一个实时的分布式搜索和分析引擎。它可以帮助你用前所未有的速度去处理大规模数据。它可以用于全文搜索,结构化搜索以及分析,当然你也可以将这三者进行组合。Elasticsearch是一个转载 2016-05-21 09:18:56 · 439 阅读 · 0 评论 -
[hadoop]MapReduce简介和安装(三)
一、MapReduce概述MapReduce,简称MR,分布式计算框架,Hadoop核心组件。分布式计算框架还有storm, spark等,它们不是谁替换谁关系,而是哪一个更适合的问题。MapReduce是离线计算框架,Storm是流式计算框架,Spark是内存计算框架,适合快速得到结果的项目。二、MapReduce设计理念何为分布式计算移动计算,而不是移动数据原创 2016-05-21 11:38:13 · 6504 阅读 · 1 评论 -
[hadoop]简单的MapReduce项目,计算文件中单词出现的次数(五)
计算文件中单词出现的次数,试题如下图1、创建读取单词的文件tast,内容如下:hadoop core map reduce hiv hbase Hbasepig hadoop mapreduce MapReduce Hadoop Hbasespark2、流程图如下:根据上图得知,计算流程中Mapping和Reducing是需要自己编写功能,其他交给Map/Redu原创 2016-05-23 15:07:35 · 7718 阅读 · 0 评论 -
[hadoop]MapReduce实例之好友推荐(六)
一、定义好友文件qqhadoop hellohdfs worldtom catcat doghello worldhello hdfshadoop好友hello,hdfs好友world...依次类推。那么hadoop和world有共同的好友hello,所以hadoop和world可能具有好友关系,world就是hadoop的推荐好友。计算出qq文件内符合上述条件的推荐好友!原创 2016-05-24 11:50:30 · 4585 阅读 · 1 评论 -
[hadoop]hive语法(十二)
一、导入数据 LOADLOAD DATA [LOCAL] INPATH 'filepath' [OVERWRITE] INTO TABLE tablename [PARTITION (partcol1=val1, partcol2=val2 ...)]LOCAL:导入本地数据filepath: 相对路径project/data1、绝对路径/user/hive/project/dat原创 2016-06-01 09:05:48 · 479 阅读 · 0 评论 -
[hadoop]hive的管理(十一)
一、Hive的启动方式CLI(命令行)方式- 直接输入 #/bin/hive的执行程序- 或输入 #hive --service cli常用CLI命令 - 清屏 Ctrl + L 或者 !clear查看数据仓库中的表 - show tables;查看数据仓库中内置的函数 - show functions;查看表结构 - d原创 2016-06-02 11:28:46 · 521 阅读 · 0 评论 -
2分钟读懂Hadoop和Spark的异同
引用地址:http://www.techweb.com.cn/network/system/2016-01-25/2267414.shtml谈到大数据,相信大家对Hadoop和Apache Spark这两个名字并不陌生。但我们往往对它们的理解只是提留在字面上,并没有对它们进行深入的思考,下面不妨跟我一块看下它们究竟有什么异同。解决问题的层面不一样首先,Hadoop和Apac转载 2016-05-20 11:11:07 · 407 阅读 · 0 评论 -
[hadoop]hive概念、安装和配置、常见异常(十)
一、概念Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供类SQL查询功能。本质是将SQL转换为MapReduce程序原创 2016-05-30 11:28:11 · 531 阅读 · 0 评论 -
[hadoop]hadoop机架感知
背景 分布式的集群通常包含非常多的机器,由于受到机架槽位和交换机网口的限制,通常大型的分布式集群都会跨好几个机架,由多个机架上的机器共同组成一个分布式集群。机架内的机器之间的网络速度通常都会高于跨机架机器之间的网络速度,并且机架之间机器的网络通信通常受到上层交换机间网络带宽的限制。 具体到Hadoop集群,由于hadoop的HDFS对数据文件的分布式存放是按照分转载 2016-05-27 13:53:32 · 389 阅读 · 0 评论 -
[hadoop]hadoop2.5 温度排序(九)
一、Eclipse创建hadoop2.x项目引入jar包hadoop-2.5.1\share\hadoop\common-hadoop-common-2.5.1.jar-hadoop-common-2.5.1-tests.jar-hadoop-nfs-2.5.1.jarhadoop-2.5.1\share\hadoop\common\lib所有jar包had原创 2016-05-26 10:08:44 · 560 阅读 · 0 评论 -
[hadoop]hadoop2.x(七)
一、hadoop2.0产生背景Hadoop1.0中HDFS和MapReduce在高可用、扩展性等方面存在问题HDFS存在的问题NameNode单点故障,难以应用于在线场景NameNode压力过大,且内存受限,影响系统扩展性MapReduce存在问题JobTracker访问压力大,影响系统扩展性难以支持除MapReduce之外的计算框架,比如Spark,Storm等原创 2016-05-24 15:28:31 · 543 阅读 · 0 评论 -
[hadoop]hadoop eclipse plugin安装与配置(四)
一、准备Eclipse,我的版本Version: Mars.2 Release (4.5.2)Hadoop-eclipse-plugin-1.2.1.jar,hadoop1.2.1的eclipse插件jar包下载地址:hadoop-eclipse-plugin-1.2.1.jar二、安装将Hadoop-eclipse-plugin-1.2.1.jar复制原创 2016-05-23 14:31:48 · 3393 阅读 · 0 评论 -
[hadoop]hadoop-1.2.1伪分布式安装教程(二)
1、必备软件1.1、JDK1.6+1.2、SSH2、安装Hadoop2.1、hadoop-1.2.1.tar.gz文件上传到/root目录2.2、解压安装到当前目录 tar zxvf hadoop-1.2.1.tar.gz ./2.3、创建软链接/home/hadoop-1.23、配置hadoopnode1是NameNode服务器node2、no原创 2016-05-20 15:31:53 · 697 阅读 · 0 评论 -
hadoop datanode启动不起来
如果大家在安装的时候遇到问题,或者按步骤安装完后却不能运行Hadoop,那么建议仔细查看日志信息,Hadoop记录了详尽的日志信息,日志文件保存在logs文件夹内。无论是启动,还是以后会经常用到的MapReduce中的每一个job,以及HDFS等相关信息,Hadoop均存有日志文件以供分析。例如:NameNode和DataNode的namespaceID不一致,这个错误是很转载 2016-05-23 08:32:48 · 316 阅读 · 0 评论