2019年4月
大数据框架Hadoop学习
大数据框架Hadoop学习技术博文
展开
-
使用Linux 和Hadoop 进行分布式计算
人们每天都依赖搜索引擎以从 Internet 的海量数据中找到特定的内容,但您曾经想过这些搜索是如何执行的吗?一种方法是 Apache 的Hadoop,它是一个能够对海量数据进行分布式处理的软件框架。Hadoop 的一个应用是并行索引 Internet Web 页面。Hadoop 是一个受到 Yahoo!、Google 和 IBM 等公司支持的 Apache 项目。本文将介绍 Hadoop 框架...原创 2019-05-14 14:15:43 · 178 阅读 · 0 评论 -
Hadoop海量put时出现的socket超时导致put失败解决方案
当一个HDFS系统同时处理许多个并行的put操作,往HDFS上传数据 时,有时候会出现dfsclient 端发生socket 链接超时的报错,有的时候甚至会由于这种原因导致最终的put操作失败,造成数据上传不完整。log类似如下:All datanodes *** are bad. Aborting...类似这样的错误,常常会在并行的put操作比较多,比如 60-80个,每个put的数...原创 2019-05-16 20:42:16 · 986 阅读 · 0 评论 -
Hadoop 单机、伪分布式及集群下的运行测试总结
找几个并行框架来测试一下,想用于分布式图像渲染。之前了解过google的GFS和mapreduce,然后听说hadoop不错,试着用了一下。我使用的是hadoop0.20.2版,测试的例子均使用统计单词个数的例子,下面是总结:首先提一下,命令的格式一般为 bin/hadoop (命令所属集) -(具体命令).1.单机模式hadoop支持在单机的情况下,用一个进程以非分布式的方式去...原创 2019-05-15 11:12:52 · 420 阅读 · 0 评论 -
Hadoop pipes初学笔记
1.安装配置好Hadoop常用命令:hadoop dfs -ls pathhadoop dfs -rmr filehadoop dfs -mkdir pathhadoop dfs -cat file2.找个wordcount程序,命名为wordcount.cpp可以是:http://wiki.apache.org/hadoop/C++WordCount也可以是hadoop安装路径下...原创 2019-05-15 11:11:09 · 144 阅读 · 0 评论 -
Hadoop伪分布式模式测试(hadoop-0.20.2)
# 配置系统conf/core-site.xml:<configuration> <property> <name>fs.default.name</name> <value>hdfs://localhost:9000</value> </property&g...原创 2019-05-15 11:10:02 · 238 阅读 · 0 评论 -
建立学习用小型Hadoop集群
系统安装完毕进行Hadoop的简单配置:1. hadoop-env.sh配置JAVA_HOME2. masters文件指定备用namenode,slaves文件指定tasktracker3. core-site.xml设置dfs.default.name为hdfs://namenode4. hdfs-site.xml设置dfs.name.dir和dfs.data.dir目录5....原创 2019-05-14 15:15:12 · 170 阅读 · 0 评论 -
Hadoop集群内lzo的安装与配置详解
操作系统:CentOS 5.5,Hadoop版本:hadoop-0.20.2-CDH3B4 安装lzo所需要软件包:gcc、ant、lzo、lzo编码/解码器,另外,还需要lzo-devel依赖 配置lzo的文件:core-site.xml、mapred-site.xml大致步骤:1)安装和更新gcc、ant2)在各个节点安装lzo3)安装lzo编码/解码器4)修改配置文件,并同...原创 2019-05-14 15:13:50 · 416 阅读 · 0 评论 -
Hadoop数据迁入到Hive
由于很多数据hadoop平台,当从hadoop平台的数据迁移到hive目录下时,由于hive默认的分隔符是\,为了平滑迁移,需要在创建表格时指定数据的分割符号,语法如下:create table test(uid string,name string)row format delimited fields terminated by '\t';通过这种方式,完成分隔符的指定。然后通过h...原创 2019-05-14 15:12:09 · 713 阅读 · 0 评论 -
在Linux 上安装Hadoop 教程
要先熟悉Linux的基本概念和操作,如:cd、ls、tar、cat、ssh、scp、cp、rm、sudo、su、apt-get等操作。一.实践环境:Ubuntu 10.04+jdk1.6+hadoop-0.20.1 机器名 IP 作用 Master 192.168.128.2 ...原创 2019-05-14 14:31:43 · 364 阅读 · 0 评论 -
Hadoop分布式安装
一、安装准备1、下载Hadoop 0.20.2,地址:http://www.apache.org/dist/hadoop/core/hadoop-0.20.2/2、JDK版本:jdk-6u20-linux-i586.bin (必须是1.6)3、操作系统:Linux s132 2.6.9-78.8AXS2smp #1 SMP Tue Dec 16 02:42:55 EST 2008 x8...原创 2019-05-14 14:29:02 · 394 阅读 · 0 评论 -
用 Linux 和 Apache Hadoop 进行云计算
IBM?、Google、VMWare 和 Amazon 等公司已经开始提供云计算产品和战略。本文讲解如何使用 ApacheHadoop构建一个 MapReduce 框架以建立 Hadoop 集群,以及如何创建在 Hadoop 上运行的示例 MapReduce 应用程序。还将讨论如何在云上设置耗费时间/磁盘的任务。云计算简介近来云计算越来越热门了,云计算已经被看作 IT 业的新趋势。云计...原创 2019-05-14 14:24:08 · 167 阅读 · 0 评论 -
Hadoop完全分布式配置
环境:CentOS5、Hadoop0.20.203、jdk1.6.0_29namenode:centos1(ip:192.168.1.101)datanode:centos2(ip:192.168.1.103)、centos3(ip:192.168.1.104)配置步骤:(1)配置NameNode和DataNode修改每台机器的/etc/hosts(包括namenode和dat...原创 2019-05-16 20:46:45 · 215 阅读 · 0 评论