2019年3月
大数据框架Hadoop学习
大数据框架Hadoop学习技术博文
展开
-
使用Linux 和Hadoop 进行分布式计算
人们每天都依赖搜索引擎以从 Internet 的海量数据中找到特定的内容,但您曾经想过这些搜索是如何执行的吗?一种方法是 Apache 的Hadoop,它是一个能够对海量数据进行分布式处理的软件框架。Hadoop 的一个应用是并行索引 Internet Web 页面。Hadoop 是一个受到 Yahoo!、Google 和 IBM 等公司支持的 Apache 项目。本文将介绍 Hadoop 框架...原创 2019-05-14 14:15:43 · 196 阅读 · 0 评论 -
Hadoop集群搭建(Hadoop)
首先说一下配置环境:三台电脑192.168.30.149 Hadoop149 namenode和jobtracker ###因为149机器稍微好一点192.168.30.150hadoop150datanode和TaskTracker 192.168.30.148hadoop150datanode和TaskTracker配置ssh无需密码登陆:$ssh-ke...原创 2019-05-16 20:30:00 · 147 阅读 · 0 评论 -
Hadoop笔记之安装及伪分布式模式配置
Hadoop推荐的是Linux环境。Windows环境只能作为开发环境,而不能作为生产环境。准备工作首先确保Java环境的安装,并确保JAVA_HOME环境变量指向了一个Java安装。Ubuntu下可以sudo apt-get install sun-java6-jdk通过运行“java -version”命令查看是否配置成功。接着在这里下载一个稳定版的hadoop,目前最新的版...原创 2019-05-16 20:32:01 · 167 阅读 · 0 评论 -
大数据分析时代:Hadoop MapReduce
当Yahoo宣布成立新公司Hortonworks接手Hadoop服务之后,业内的目光再次集中到这家大型互联网公司,而这一次的关键字是“大数据”。 在波士顿举行的Enzee Univers 2011大会上,厂商、分析师以及咨询师认为目前大数据技术已经在企业软件中占据了一席之地。无论目前结构化数据还是非结构化数据,它们在深度与广度上都飞速地增长着,企业能否有效管理并挖掘利用这些数据将决定信息化建...原创 2019-05-16 20:34:12 · 366 阅读 · 0 评论 -
设置Hadoop各个应用的内存
NameNode、Jobtracker、Datanode、Tasktracker设置conf/Hadoop-env.sh修改HADOOP_HEAPSIZE值,默认为1000MB,标题中四个应用将使用相同的配置。如果希望每个应用不一样,可以修改"conf/hadoop-env.sh"中"HADOOP_XXX_OPTS",举例比如希望修改NN的Head Size最大值,通过如下语句:exp...原创 2019-05-16 20:35:11 · 603 阅读 · 0 评论 -
Hadoop中的集群配置和使用技巧
这里主要重点说一下集群配置运行的过程。环境7台普通的机器,操作系统都是Linux。内存和CPU就不说了,反正Hadoop一大特点就是机器在多不在精。JDK必须是1.5以上的,这个切记。7台机器的机器名务必不同,后续会谈到机器名对于MapReduce有很大的影响。部署考虑正如上面我描述的,对于Hadoop的集群来说,可以分成两大类角色:Master和Slave,前者主要配置NameN...原创 2019-05-16 20:36:29 · 152 阅读 · 0 评论 -
Hadoop namenode启动过程详细剖析及瓶颈分析
NameNode中几个关键的数据结构FSImageNamenode会将HDFS的文件和目录元数据存储在一个叫fsimage的二进制文件中,每次保存fsimage之后到下次保存之间的所有hdfs操作,将会记录在editlog文件中,当editlog达到一定的大小(bytes,由fs.checkpoint.size参数定义)或从上次保存过后一定时间段过后(sec,由fs.checkpoint....原创 2019-05-16 20:39:36 · 280 阅读 · 0 评论 -
Hadoop集群网络性能优化:Hadoop机架感知实现及配置
分布式的集群通常包含非常多的机器,由于受到机架槽位和交换机网口的限制,通常大型的分布式集群都会跨好几个机架,由多个机架上的机器共同组成一个分布式集群。机架内的机器之间的网络速度通常都会高于跨机架机器之间的网络速度,并且机架之间机器的网络通信通常受到上层交换机间网络带宽的限制。 具体到Hadoop集群,由于hadoop的HDFS对数据文件的分布式存放是按照分块block存储,每个block...原创 2019-05-16 20:41:07 · 557 阅读 · 0 评论 -
Hadoop海量put时出现的socket超时导致put失败解决方案
当一个HDFS系统同时处理许多个并行的put操作,往HDFS上传数据 时,有时候会出现dfsclient 端发生socket 链接超时的报错,有的时候甚至会由于这种原因导致最终的put操作失败,造成数据上传不完整。log类似如下:All datanodes *** are bad. Aborting...类似这样的错误,常常会在并行的put操作比较多,比如 60-80个,每个put的数...原创 2019-05-16 20:42:16 · 1094 阅读 · 0 评论 -
Hadoop完全分布式配置
环境:CentOS5、Hadoop0.20.203、jdk1.6.0_29namenode:centos1(ip:192.168.1.101)datanode:centos2(ip:192.168.1.103)、centos3(ip:192.168.1.104)配置步骤:(1)配置NameNode和DataNode修改每台机器的/etc/hosts(包括namenode和dat...原创 2019-05-16 20:46:45 · 251 阅读 · 0 评论 -
Hadoop集群、hive、derby安装部署详细说明
Hadoop集群安装部署1 前言本文档是设想在多台服务器上部署HADOOP的实现过程;2 创建用户建议同个集群中的用户和用户组,都是相同的,以便管理和维护。2.1 生成创建用户的运行角本为不同服务器创建同样的用户和组,创建脚本的目的是让不同服务器可以直接运行此脚本,实现用户创建的过程。用root用户登录linux,运行命令:[roo...原创 2019-05-17 22:13:36 · 347 阅读 · 0 评论 -
大数据Hadoop基础入门
hadoop快速入门,基本上按照里面步骤能快速入门hadoop,但这篇文档是针对hadoop 0.18写的,有些地方还是和hadoop 0.20不同。在文档“伪分布式模式的操作方法”中有下面配置说明:配置 使用如下的conf/hadoop-site.xml: <configuration> <property> <na...原创 2019-05-17 22:27:29 · 243 阅读 · 0 评论 -
Hadoop之HBase快速入门
本文解决单机(standlone)运行HBase的故障问题。读者可以快速领略HBase的基本Shell命令。第一步 准备软件机器环境:Ubuntu 11.10+JDK1.6下载软件:hbase-0.92.1.tar.gz我的用户名为:cl我的机器名为:thinkpad-zh解压缩hbase:$ tar xzf /home/cl/Downloads/hbase-0.92....原创 2019-05-18 13:04:13 · 218 阅读 · 0 评论 -
掌握方法 如何利用Hadoop廉价大数据分析
大数据将成为本年度的云计算。这是必然发生的结果:随着时间的推移,企业产生的数据集已经越来越大了,这些数据包括客户购买偏好趋势、网站访问和习惯、客户审查数据等等;那么您怎样才能把这么大量的数据整理成综合形式呢?传统的商业智能(BI)工具(关系型数据库和桌面数学计算包)在处理企业这么大量的数据时已经有点不够用了。当然,数据分析行业也有开发工具和框架,支持数据研究人员和分析师们挖掘大数据集,并能承受得了...原创 2019-05-18 13:05:25 · 332 阅读 · 0 评论 -
基于Hadoop配置文件的MapReduce数据流优化
Hadoop配置文件设定了Hadoop平台运行时各方面属性。大量实验证明,合理的配置会大大提高Hadoop的性能。在Hadoop-0.19.2版本中,Hadoop配置文件在conf目录下,包括文件hadoop-default.xml和hadoop-site.xml,前者做了默认配置,不允许修改,用户需要配置时可以在后者中设置。Hadoop平台启动时首先加载hadoop-site.xml文件来配置系...原创 2019-05-18 13:06:49 · 189 阅读 · 0 评论 -
Mapreduce Hadoop流 编程入门
待处理文件hello.txt,内容如下:john 91mem 21ave 33sily 42fdk 51ksed 67umkt 75svv 28john 11mem 34ave 33sily 424fdk 2115ksed 7896umkt 5237svv 1238john 111mem 7832ave 6773sily 1234fdk 523ksed...原创 2019-05-18 13:08:28 · 185 阅读 · 0 评论 -
Hadoop集群搭建的常见错误
常见错误整理:1.Hadoop初始化错误INFO org.apache.hadoop.ipc.Client: Retryingconnect to server: uec-fe/16.157.63.10:9000. Already tried 0 time(s). 这种情况对数出现在启动namenode时成功,但是运行job时就会一直连接。 通过查看TaskTracker日志...原创 2019-05-16 20:28:04 · 1050 阅读 · 0 评论 -
Hadoop 单机、伪分布式及集群下的运行测试总结
找几个并行框架来测试一下,想用于分布式图像渲染。之前了解过google的GFS和mapreduce,然后听说hadoop不错,试着用了一下。我使用的是hadoop0.20.2版,测试的例子均使用统计单词个数的例子,下面是总结:首先提一下,命令的格式一般为 bin/hadoop (命令所属集) -(具体命令).1.单机模式hadoop支持在单机的情况下,用一个进程以非分布式的方式去...原创 2019-05-15 11:12:52 · 458 阅读 · 0 评论 -
Hadoop pipes初学笔记
1.安装配置好Hadoop常用命令:hadoop dfs -ls pathhadoop dfs -rmr filehadoop dfs -mkdir pathhadoop dfs -cat file2.找个wordcount程序,命名为wordcount.cpp可以是:http://wiki.apache.org/hadoop/C++WordCount也可以是hadoop安装路径下...原创 2019-05-15 11:11:09 · 161 阅读 · 0 评论 -
用 Linux 和 Apache Hadoop 进行云计算
IBM?、Google、VMWare 和 Amazon 等公司已经开始提供云计算产品和战略。本文讲解如何使用 ApacheHadoop构建一个 MapReduce 框架以建立 Hadoop 集群,以及如何创建在 Hadoop 上运行的示例 MapReduce 应用程序。还将讨论如何在云上设置耗费时间/磁盘的任务。云计算简介近来云计算越来越热门了,云计算已经被看作 IT 业的新趋势。云计...原创 2019-05-14 14:24:08 · 201 阅读 · 0 评论 -
Hadoop分布式安装
一、安装准备1、下载Hadoop 0.20.2,地址:http://www.apache.org/dist/hadoop/core/hadoop-0.20.2/2、JDK版本:jdk-6u20-linux-i586.bin (必须是1.6)3、操作系统:Linux s132 2.6.9-78.8AXS2smp #1 SMP Tue Dec 16 02:42:55 EST 2008 x8...原创 2019-05-14 14:29:02 · 416 阅读 · 0 评论 -
在Linux 上安装Hadoop 教程
要先熟悉Linux的基本概念和操作,如:cd、ls、tar、cat、ssh、scp、cp、rm、sudo、su、apt-get等操作。一.实践环境:Ubuntu 10.04+jdk1.6+hadoop-0.20.1 机器名 IP 作用 Master 192.168.128.2 ...原创 2019-05-14 14:31:43 · 402 阅读 · 0 评论 -
Hadoop配置文件配置项定义
Hadoop配置文件配置项定义:0. 版本0.19.21. hadoop cluster组成1.1. HDFS1.1.1 Name Node (1台)1.1.2 Secondary Name Node (1台, 可选)1.1.3 Data Node (若干台)1.2. MR1.2.1 Master [JobTracker] (1台)1.2.2 Slave [...原创 2019-05-14 15:03:14 · 247 阅读 · 0 评论 -
Hadoop快速入门里头单机模式操作方法运行错误的解决办法
尝试了一下Hadoop,没想到按照教程来,第一个例子就报错了……错误如下:$ bin/hadoop jar hadoop-mapred-examples-0.21.0.jar grep input output ‘dfs[a-z.]+’Exception in thread “main” java.io.IOException: Error opening job jar: hadoop-m...原创 2019-05-14 15:03:17 · 376 阅读 · 0 评论 -
Hadoop数据迁入到Hive
由于很多数据hadoop平台,当从hadoop平台的数据迁移到hive目录下时,由于hive默认的分隔符是\,为了平滑迁移,需要在创建表格时指定数据的分割符号,语法如下:create table test(uid string,name string)row format delimited fields terminated by '\t';通过这种方式,完成分隔符的指定。然后通过h...原创 2019-05-14 15:12:09 · 736 阅读 · 0 评论 -
Hadoop集群内lzo的安装与配置详解
操作系统:CentOS 5.5,Hadoop版本:hadoop-0.20.2-CDH3B4 安装lzo所需要软件包:gcc、ant、lzo、lzo编码/解码器,另外,还需要lzo-devel依赖 配置lzo的文件:core-site.xml、mapred-site.xml大致步骤:1)安装和更新gcc、ant2)在各个节点安装lzo3)安装lzo编码/解码器4)修改配置文件,并同...原创 2019-05-14 15:13:50 · 480 阅读 · 0 评论 -
建立学习用小型Hadoop集群
系统安装完毕进行Hadoop的简单配置:1. hadoop-env.sh配置JAVA_HOME2. masters文件指定备用namenode,slaves文件指定tasktracker3. core-site.xml设置dfs.default.name为hdfs://namenode4. hdfs-site.xml设置dfs.name.dir和dfs.data.dir目录5....原创 2019-05-14 15:15:12 · 202 阅读 · 0 评论 -
大数据未来五年:Hadoop将推动数据平民化
国联合市场研究(Allied Market Research)机构近日预测,到2020年,Hadoop的市场价值会超过500亿。Hadoop技术发展至今,走过了近九个年头,乘着大数据的东风,它以低廉的存储和快速的处理能力迅速在中小企业蔓延开来。而据联合市场研究预测,五年后,Hadoop会得国联合市场研究(Allied Market Research)机构近日预测,到2020年,Hadoop的市...原创 2019-05-15 10:53:32 · 266 阅读 · 0 评论 -
使用Java API操作Hadoop文件
1. 概述2. 文件操作2.1 上传本地文件到Hadoop fs2.2 在hadoop fs中新建文件,并写入2.3 删除hadoop fs上的文件2.4 读取文件3. 目录操作3.1 在hadoop fs上创建目录3.2 删除目录3.3 读取某个目录下的所有文件4. 参考资料接代码下载<1>. 概述hadoop中关于文件操作类基本上...原创 2019-05-15 10:55:05 · 635 阅读 · 0 评论 -
Hadoop---在HDFS集群基础上搭建Map/Reduce集群
1. 硬件:VMWARE 虚拟机 * 4台,256M内存,20G硬盘操作系统:RHEL_64_5.42. 基本软件架构部署:IP地址 主机名称 目录 功能 1. 192....原创 2019-05-15 10:56:59 · 161 阅读 · 0 评论 -
HadoopDB安装使用
由于它是在 Hadoop-0.19.x 开发的,因此我还是用 Hadoop-0.19.2 来架设,其中 0.19.2 与 0.20.1 安装上只有些微的差别,在上述文章中的 hadoop-0.20.1/conf/core-site.xml 与 hadoop-0.20.1/conf/mapred-site.xml 的内容,只需改写在 hadoop-0.19.2/conf/hadoop-site.x...原创 2019-05-15 10:58:44 · 458 阅读 · 0 评论 -
Hadoop 0.20.2 集群配置
说明:本文档是个人研究配置Hadoop 集群过程后产生的,参考了别人的配置文档,同时结合自己实际的情况,解决遇到的问题后最终配置成功。1准备机器 :没有多余机器,安装了vmware7.0 后模拟的 2 台系统,操作系统是 Ubuntu10.10所有的系统必须有相同的用户和密码,这里两个系统都是用hadoop:hadoop 作用户名和密码以下操作均是以hadoop 身份...原创 2019-05-15 11:02:21 · 502 阅读 · 0 评论 -
Hadoop集群的搭建
1.准备阶段(1)在每台机器上安装Ubuntu 10.04(2)增加root 用户 sudo passwd root 输入新的密码(3)在ubuntu 中启动终端,application - assit - terminal(4)配置网络 perfernces -> network connection 配置网络地址 administ...原创 2019-05-15 11:04:44 · 197 阅读 · 0 评论 -
Hadoop伪分布式模式测试(hadoop-0.20.2)
# 配置系统conf/core-site.xml:<configuration> <property> <name>fs.default.name</name> <value>hdfs://localhost:9000</value> </property&g...原创 2019-05-15 11:10:02 · 272 阅读 · 0 评论 -
Hadoop大数据部署
Hadoop大数据部署一. 系统环境配置:1. 关闭防火墙,selinux关闭防火墙:systemctl stop firewalldsystemctl disable firewalld设置selinux为disable# cat /etc/selinux/configSELINUX=disabled2. 配置ntp时间服务器# yum -y install nt...原创 2019-05-18 13:10:08 · 301 阅读 · 0 评论