2019年5月
大数据框架Hadoop学习
大数据框架Hadoop学习技术博文
展开
-
Hadoop大数据部署
Hadoop大数据部署一. 系统环境配置:1. 关闭防火墙,selinux关闭防火墙:systemctl stop firewalldsystemctl disable firewalld设置selinux为disable# cat /etc/selinux/configSELINUX=disabled2. 配置ntp时间服务器# yum -y install nt...原创 2019-05-18 13:10:08 · 267 阅读 · 0 评论 -
Hadoop集群网络性能优化:Hadoop机架感知实现及配置
分布式的集群通常包含非常多的机器,由于受到机架槽位和交换机网口的限制,通常大型的分布式集群都会跨好几个机架,由多个机架上的机器共同组成一个分布式集群。机架内的机器之间的网络速度通常都会高于跨机架机器之间的网络速度,并且机架之间机器的网络通信通常受到上层交换机间网络带宽的限制。 具体到Hadoop集群,由于hadoop的HDFS对数据文件的分布式存放是按照分块block存储,每个block...原创 2019-05-16 20:41:07 · 509 阅读 · 0 评论 -
Hadoop namenode启动过程详细剖析及瓶颈分析
NameNode中几个关键的数据结构FSImageNamenode会将HDFS的文件和目录元数据存储在一个叫fsimage的二进制文件中,每次保存fsimage之后到下次保存之间的所有hdfs操作,将会记录在editlog文件中,当editlog达到一定的大小(bytes,由fs.checkpoint.size参数定义)或从上次保存过后一定时间段过后(sec,由fs.checkpoint....原创 2019-05-16 20:39:36 · 250 阅读 · 0 评论 -
Hadoop中的集群配置和使用技巧
这里主要重点说一下集群配置运行的过程。环境7台普通的机器,操作系统都是Linux。内存和CPU就不说了,反正Hadoop一大特点就是机器在多不在精。JDK必须是1.5以上的,这个切记。7台机器的机器名务必不同,后续会谈到机器名对于MapReduce有很大的影响。部署考虑正如上面我描述的,对于Hadoop的集群来说,可以分成两大类角色:Master和Slave,前者主要配置NameN...原创 2019-05-16 20:36:29 · 135 阅读 · 0 评论 -
设置Hadoop各个应用的内存
NameNode、Jobtracker、Datanode、Tasktracker设置conf/Hadoop-env.sh修改HADOOP_HEAPSIZE值,默认为1000MB,标题中四个应用将使用相同的配置。如果希望每个应用不一样,可以修改"conf/hadoop-env.sh"中"HADOOP_XXX_OPTS",举例比如希望修改NN的Head Size最大值,通过如下语句:exp...原创 2019-05-16 20:35:11 · 575 阅读 · 0 评论 -
大数据分析时代:Hadoop MapReduce
当Yahoo宣布成立新公司Hortonworks接手Hadoop服务之后,业内的目光再次集中到这家大型互联网公司,而这一次的关键字是“大数据”。 在波士顿举行的Enzee Univers 2011大会上,厂商、分析师以及咨询师认为目前大数据技术已经在企业软件中占据了一席之地。无论目前结构化数据还是非结构化数据,它们在深度与广度上都飞速地增长着,企业能否有效管理并挖掘利用这些数据将决定信息化建...原创 2019-05-16 20:34:12 · 309 阅读 · 0 评论 -
Hadoop笔记之安装及伪分布式模式配置
Hadoop推荐的是Linux环境。Windows环境只能作为开发环境,而不能作为生产环境。准备工作首先确保Java环境的安装,并确保JAVA_HOME环境变量指向了一个Java安装。Ubuntu下可以sudo apt-get install sun-java6-jdk通过运行“java -version”命令查看是否配置成功。接着在这里下载一个稳定版的hadoop,目前最新的版...原创 2019-05-16 20:32:01 · 154 阅读 · 0 评论 -
Hadoop集群搭建(Hadoop)
首先说一下配置环境:三台电脑192.168.30.149 Hadoop149 namenode和jobtracker ###因为149机器稍微好一点192.168.30.150hadoop150datanode和TaskTracker 192.168.30.148hadoop150datanode和TaskTracker配置ssh无需密码登陆:$ssh-ke...原创 2019-05-16 20:30:00 · 135 阅读 · 0 评论 -
Hadoop集群搭建的常见错误
常见错误整理:1.Hadoop初始化错误INFO org.apache.hadoop.ipc.Client: Retryingconnect to server: uec-fe/16.157.63.10:9000. Already tried 0 time(s). 这种情况对数出现在启动namenode时成功,但是运行job时就会一直连接。 通过查看TaskTracker日志...原创 2019-05-16 20:28:04 · 965 阅读 · 0 评论 -
十大数据挖掘知识点
数据挖掘是神马数据挖掘的含义数据挖掘是指有组织有目的地收集数据、分析数据,并从这些大量数据提取出需要的有用信息,从而寻找出数据中存在的规律、规则、知识以及模式、关联、变化、异常和有意义的结构。数据挖掘是一种从大量数据中寻找存在的规律、规则、知识以及模式、关联、变化、异常和有意义的结构的技术,是统计学、数据库技术和人工智能技术等技术的综合。数据挖掘的本质数据挖掘的本质就是寻找出数据...原创 2019-05-20 21:59:54 · 721 阅读 · 0 评论 -
大数据-Hive学习从这里开始
Hive是基于Hadoop HDFS分布式文件系统的分布式数据仓库架构。它为数据仓库的管理提供了许多功能:数据ETL(抽取、转换和加载)工具,数据存储管理和大型数据集的查询和分析能力。同时Hive还定义了类SQL的语言(HiveQL)。允许用户进行和SQL相似的操作,它可以将结构化的数据文件映射为一张数据库表,并提供简单的SQL查询功能。还允许开发人员方便的使用Mapper和Reducer操作,...原创 2019-05-20 21:59:50 · 276 阅读 · 0 评论 -
Hadoop海量put时出现的socket超时导致put失败解决方案
当一个HDFS系统同时处理许多个并行的put操作,往HDFS上传数据 时,有时候会出现dfsclient 端发生socket 链接超时的报错,有的时候甚至会由于这种原因导致最终的put操作失败,造成数据上传不完整。log类似如下:All datanodes *** are bad. Aborting...类似这样的错误,常常会在并行的put操作比较多,比如 60-80个,每个put的数...原创 2019-05-16 20:42:16 · 986 阅读 · 0 评论 -
Hadoop完全分布式配置
环境:CentOS5、Hadoop0.20.203、jdk1.6.0_29namenode:centos1(ip:192.168.1.101)datanode:centos2(ip:192.168.1.103)、centos3(ip:192.168.1.104)配置步骤:(1)配置NameNode和DataNode修改每台机器的/etc/hosts(包括namenode和dat...原创 2019-05-16 20:46:45 · 216 阅读 · 0 评论 -
Mapreduce Hadoop流 编程入门
待处理文件hello.txt,内容如下:john 91mem 21ave 33sily 42fdk 51ksed 67umkt 75svv 28john 11mem 34ave 33sily 424fdk 2115ksed 7896umkt 5237svv 1238john 111mem 7832ave 6773sily 1234fdk 523ksed...原创 2019-05-18 13:08:28 · 147 阅读 · 0 评论 -
基于Hadoop配置文件的MapReduce数据流优化
Hadoop配置文件设定了Hadoop平台运行时各方面属性。大量实验证明,合理的配置会大大提高Hadoop的性能。在Hadoop-0.19.2版本中,Hadoop配置文件在conf目录下,包括文件hadoop-default.xml和hadoop-site.xml,前者做了默认配置,不允许修改,用户需要配置时可以在后者中设置。Hadoop平台启动时首先加载hadoop-site.xml文件来配置系...原创 2019-05-18 13:06:49 · 155 阅读 · 0 评论 -
掌握方法 如何利用Hadoop廉价大数据分析
大数据将成为本年度的云计算。这是必然发生的结果:随着时间的推移,企业产生的数据集已经越来越大了,这些数据包括客户购买偏好趋势、网站访问和习惯、客户审查数据等等;那么您怎样才能把这么大量的数据整理成综合形式呢?传统的商业智能(BI)工具(关系型数据库和桌面数学计算包)在处理企业这么大量的数据时已经有点不够用了。当然,数据分析行业也有开发工具和框架,支持数据研究人员和分析师们挖掘大数据集,并能承受得了...原创 2019-05-18 13:05:25 · 306 阅读 · 0 评论 -
Hadoop之HBase快速入门
本文解决单机(standlone)运行HBase的故障问题。读者可以快速领略HBase的基本Shell命令。第一步 准备软件机器环境:Ubuntu 11.10+JDK1.6下载软件:hbase-0.92.1.tar.gz我的用户名为:cl我的机器名为:thinkpad-zh解压缩hbase:$ tar xzf /home/cl/Downloads/hbase-0.92....原创 2019-05-18 13:04:13 · 196 阅读 · 0 评论 -
Hadoop配置多个硬盘
在Hadoop的文档里明确提出了不需要使用RAID(见http://wiki.apache.org/hadoop/DiskSetup)。hadoop本身的冗余机制使得RAID的冗余机制变得多余了。并且根据一篇文章《why not use RAID?》的描述:在Yahoo Hadoop Cluster的Benchmark中,测试Gridmix显示使用JBOD相比RAID能提高写性能10%以上。...原创 2019-05-18 13:01:35 · 814 阅读 · 0 评论 -
Hadoop 创建用户及HDFS权限,HDFS操作等常用Shell命令
sudo addgroup Hadoop#添加一个hadoop组sudo usermod -a -G hadoop larry#将当前用户加入到hadoop组sudo gedit etc/sudoers#将hadoop组加入到sudoer在root ALL=(ALL) ALL后 hadoop ALL=(ALL) ALL修改hadoop目录的权限sudo chown -R larry:h...原创 2019-05-18 13:00:33 · 4114 阅读 · 0 评论 -
大数据Hadoop基础入门
hadoop快速入门,基本上按照里面步骤能快速入门hadoop,但这篇文档是针对hadoop 0.18写的,有些地方还是和hadoop 0.20不同。在文档“伪分布式模式的操作方法”中有下面配置说明:配置 使用如下的conf/hadoop-site.xml: <configuration> <property> <na...原创 2019-05-17 22:27:29 · 208 阅读 · 0 评论 -
大数据Hadoop学习Hive入门
基本上根据文档能对hive快速入门。在使用过程中可能会出现以下问题:当执行下面命令时:Java代码$$HIVE_HOME/bin/hive可能会出现Invalid maximum heap size: -Xmx4096m提示。那是因为hive默认Hadoopheap size为4096m。如果出现这个提示,你需要修改hadoop heap size的大小。方法如下...原创 2019-05-17 22:25:55 · 414 阅读 · 0 评论 -
使用Hadoop进行大规模数据的全局排序
Hadoop(某人儿子的一只虚拟大象的名字)是一个复杂到极致,又简单到极致的东西。说它复杂,是因为一个hadoop集群往往有几十台甚至成百上千台low cost的计算机组成,你运行的每一个任务都要在这些计算机上做任务的分发,执行中间数据排序以及最后的汇总,期间还包含节点发现,任务的重试,故障节点替换等等等等的维护以及异常情况处理。谁叫hadoop集群往往都是由一些平民计算机组成,没事儿罢个工什...原创 2019-05-17 22:24:45 · 373 阅读 · 0 评论 -
Hadoop集群、hive、derby安装部署详细说明
Hadoop集群安装部署1 前言本文档是设想在多台服务器上部署HADOOP的实现过程;2 创建用户建议同个集群中的用户和用户组,都是相同的,以便管理和维护。2.1 生成创建用户的运行角本为不同服务器创建同样的用户和组,创建脚本的目的是让不同服务器可以直接运行此脚本,实现用户创建的过程。用root用户登录linux,运行命令:[roo...原创 2019-05-17 22:13:36 · 297 阅读 · 0 评论 -
大数据-Hadoop小文件问题解决方案
HDFS中小文件是指文件size小于HDFS上block大小的文件。大量的小文件会hadoop的扩展性和性能带来严重的影响。小文件是如何产生的?动态分区插入数据,产生大量的小文件,从而导致map数量剧增reduce数量越多,小文件也越多,reduce的个数和输出文件个数一致数据源本身就是大量的小文件小文件问题的影响从Mapreduce的角度看,一个文件会启动一个map,...原创 2019-05-20 21:59:52 · 1648 阅读 · 0 评论 -
Hadoop 单机、伪分布式及集群下的运行测试总结
找几个并行框架来测试一下,想用于分布式图像渲染。之前了解过google的GFS和mapreduce,然后听说hadoop不错,试着用了一下。我使用的是hadoop0.20.2版,测试的例子均使用统计单词个数的例子,下面是总结:首先提一下,命令的格式一般为 bin/hadoop (命令所属集) -(具体命令).1.单机模式hadoop支持在单机的情况下,用一个进程以非分布式的方式去...原创 2019-05-15 11:12:52 · 420 阅读 · 0 评论 -
Hadoop Yarn调度器的选择和使用
Yarn在Hadoop的生态系统中担任了资源管理和任务调度的角色。在讨论其构造器之前先简单了解一下Yarn的架构。一、引言Yarn在Hadoop的生态系统中担任了资源管理和任务调度的角色。在讨论其构造器之前先简单了解一下Yarn的架构。上图是Yarn的基本架构,其中ResourceManager是整个架构的核心组件,它负责整个集群中包括内存、CPU等资源的管理;Appl...原创 2019-05-19 21:30:55 · 174 阅读 · 0 评论 -
Linux下Hadoop集群安装详细步骤
1. 环境的需求(这里虚拟机下CentOS6的安装就不说了) Centos6 + Hadoop-0.21.0.tar2. 服务器的配置(我在这里均为2个CPU,2G内存,100硬盘) 在这里,服务器IP最好是固定的,也就是说,能相互之间用ping命令ping通的IP 建议在公司开发,因为公司有这个条件,我在这里配置了三台datanode,分别为 Datanod...原创 2019-05-14 15:17:40 · 544 阅读 · 0 评论 -
建立学习用小型Hadoop集群
系统安装完毕进行Hadoop的简单配置:1. hadoop-env.sh配置JAVA_HOME2. masters文件指定备用namenode,slaves文件指定tasktracker3. core-site.xml设置dfs.default.name为hdfs://namenode4. hdfs-site.xml设置dfs.name.dir和dfs.data.dir目录5....原创 2019-05-14 15:15:12 · 170 阅读 · 0 评论 -
Hadoop集群内lzo的安装与配置详解
操作系统:CentOS 5.5,Hadoop版本:hadoop-0.20.2-CDH3B4 安装lzo所需要软件包:gcc、ant、lzo、lzo编码/解码器,另外,还需要lzo-devel依赖 配置lzo的文件:core-site.xml、mapred-site.xml大致步骤:1)安装和更新gcc、ant2)在各个节点安装lzo3)安装lzo编码/解码器4)修改配置文件,并同...原创 2019-05-14 15:13:50 · 416 阅读 · 0 评论 -
Hadoop数据迁入到Hive
由于很多数据hadoop平台,当从hadoop平台的数据迁移到hive目录下时,由于hive默认的分隔符是\,为了平滑迁移,需要在创建表格时指定数据的分割符号,语法如下:create table test(uid string,name string)row format delimited fields terminated by '\t';通过这种方式,完成分隔符的指定。然后通过h...原创 2019-05-14 15:12:09 · 713 阅读 · 0 评论 -
Hadoop快速入门里头单机模式操作方法运行错误的解决办法
尝试了一下Hadoop,没想到按照教程来,第一个例子就报错了……错误如下:$ bin/hadoop jar hadoop-mapred-examples-0.21.0.jar grep input output ‘dfs[a-z.]+’Exception in thread “main” java.io.IOException: Error opening job jar: hadoop-m...原创 2019-05-14 15:03:17 · 327 阅读 · 0 评论 -
Hadoop配置文件配置项定义
Hadoop配置文件配置项定义:0. 版本0.19.21. hadoop cluster组成1.1. HDFS1.1.1 Name Node (1台)1.1.2 Secondary Name Node (1台, 可选)1.1.3 Data Node (若干台)1.2. MR1.2.1 Master [JobTracker] (1台)1.2.2 Slave [...原创 2019-05-14 15:03:14 · 221 阅读 · 0 评论 -
在Linux 上安装Hadoop 教程
要先熟悉Linux的基本概念和操作,如:cd、ls、tar、cat、ssh、scp、cp、rm、sudo、su、apt-get等操作。一.实践环境:Ubuntu 10.04+jdk1.6+hadoop-0.20.1 机器名 IP 作用 Master 192.168.128.2 ...原创 2019-05-14 14:31:43 · 364 阅读 · 0 评论 -
Hadoop分布式安装
一、安装准备1、下载Hadoop 0.20.2,地址:http://www.apache.org/dist/hadoop/core/hadoop-0.20.2/2、JDK版本:jdk-6u20-linux-i586.bin (必须是1.6)3、操作系统:Linux s132 2.6.9-78.8AXS2smp #1 SMP Tue Dec 16 02:42:55 EST 2008 x8...原创 2019-05-14 14:29:02 · 394 阅读 · 0 评论 -
用 Linux 和 Apache Hadoop 进行云计算
IBM?、Google、VMWare 和 Amazon 等公司已经开始提供云计算产品和战略。本文讲解如何使用 ApacheHadoop构建一个 MapReduce 框架以建立 Hadoop 集群,以及如何创建在 Hadoop 上运行的示例 MapReduce 应用程序。还将讨论如何在云上设置耗费时间/磁盘的任务。云计算简介近来云计算越来越热门了,云计算已经被看作 IT 业的新趋势。云计...原创 2019-05-14 14:24:08 · 167 阅读 · 0 评论 -
Hadoop工具如何形成SAP Hana的大数据平台
自2008年以来,SAP Hana一直是领先的数据库管理系统之一。它比许多其他数据库管理解决方案能够更有效地处理数据,主要是因为它可以使用一些最先进的hadoop工具。没有hadoop,大多数SAP Hana数据库将是相对无用的。访问大多数数据集将是困难的,特别是在它们存储原始数据的时候。为什么Hadoop是SAP Hana的骨干迈克尔·考克斯和戴维·埃尔斯沃斯在1997年发表的“数据可视...原创 2019-05-19 21:59:41 · 1580 阅读 · 0 评论 -
大数据专业词汇十四个入门学习必掌握
随着大数据技术的不断提高,大数据应用的不断普及,大数据与各行各业的关系越来越紧密。大数据行业充斥着大量的专业词汇,准确掌握和了解这些词汇的含义,有助于更好的理解大数据,更好地利用大数据技术。以下整理了以数据处理为中心的14个大数据专业词汇, 一起来看看吧~~~本地数据库(LDB/Local Data Base)本地数据库是指驻留于运行客户应用程序的机器的数据库。本地数据库位于本地磁盘或局域...原创 2019-05-19 21:59:39 · 710 阅读 · 0 评论 -
Hadoop pipes初学笔记
1.安装配置好Hadoop常用命令:hadoop dfs -ls pathhadoop dfs -rmr filehadoop dfs -mkdir pathhadoop dfs -cat file2.找个wordcount程序,命名为wordcount.cpp可以是:http://wiki.apache.org/hadoop/C++WordCount也可以是hadoop安装路径下...原创 2019-05-15 11:11:09 · 144 阅读 · 0 评论 -
Hadoop伪分布式模式测试(hadoop-0.20.2)
# 配置系统conf/core-site.xml:<configuration> <property> <name>fs.default.name</name> <value>hdfs://localhost:9000</value> </property&g...原创 2019-05-15 11:10:02 · 238 阅读 · 0 评论 -
Hadoop集群的搭建
1.准备阶段(1)在每台机器上安装Ubuntu 10.04(2)增加root 用户 sudo passwd root 输入新的密码(3)在ubuntu 中启动终端,application - assit - terminal(4)配置网络 perfernces -> network connection 配置网络地址 administ...原创 2019-05-15 11:04:44 · 172 阅读 · 0 评论