2018年12月
大数据框架Hadoop学习
大数据框架Hadoop学习技术博文
展开
-
使用Linux 和Hadoop 进行分布式计算
人们每天都依赖搜索引擎以从 Internet 的海量数据中找到特定的内容,但您曾经想过这些搜索是如何执行的吗?一种方法是 Apache 的Hadoop,它是一个能够对海量数据进行分布式处理的软件框架。Hadoop 的一个应用是并行索引 Internet Web 页面。Hadoop 是一个受到 Yahoo!、Google 和 IBM 等公司支持的 Apache 项目。本文将介绍 Hadoop 框架...原创 2019-05-14 14:15:43 · 178 阅读 · 0 评论 -
Hadoop海量put时出现的socket超时导致put失败解决方案
当一个HDFS系统同时处理许多个并行的put操作,往HDFS上传数据 时,有时候会出现dfsclient 端发生socket 链接超时的报错,有的时候甚至会由于这种原因导致最终的put操作失败,造成数据上传不完整。 log类似如下: All datanodes *** are bad. Aborting... 类似这样的错误,常常会在并行的put操作比较多,比如 60-80个,每个put的数...原创 2019-05-16 20:42:16 · 986 阅读 · 0 评论 -
Hadoop pipes初学笔记
1.安装配置好Hadoop 常用命令: hadoop dfs -ls path hadoop dfs -rmr file hadoop dfs -mkdir path hadoop dfs -cat file 2.找个wordcount程序,命名为wordcount.cpp 可以是:http://wiki.apache.org/hadoop/C++WordCount 也可以是hadoop安装路径下...原创 2019-05-15 11:11:09 · 144 阅读 · 0 评论 -
Hadoop伪分布式模式测试(hadoop-0.20.2)
# 配置系统 conf/core-site.xml: <configuration> <property> <name>fs.default.name</name> <value>hdfs://localhost:9000</value> </property&g...原创 2019-05-15 11:10:02 · 238 阅读 · 0 评论 -
建立学习用小型Hadoop集群
系统安装完毕进行Hadoop的简单配置: 1. hadoop-env.sh配置JAVA_HOME 2. masters文件指定备用namenode,slaves文件指定tasktracker 3. core-site.xml设置dfs.default.name为hdfs://namenode 4. hdfs-site.xml设置dfs.name.dir和dfs.data.dir目录 5....原创 2019-05-14 15:15:12 · 170 阅读 · 0 评论 -
Hadoop数据迁入到Hive
由于很多数据hadoop平台,当从hadoop平台的数据迁移到hive目录下时,由于hive默认的分隔符是\,为了平滑迁移,需要在创建表格时指定数据的分割符号,语法如下: create table test(uid string,name string)row format delimited fields terminated by '\t'; 通过这种方式,完成分隔符的指定。 然后通过h...原创 2019-05-14 15:12:09 · 713 阅读 · 0 评论 -
在Linux 上安装Hadoop 教程
要先熟悉Linux的基本概念和操作,如:cd、ls、tar、cat、ssh、scp、cp、rm、sudo、su、apt-get等操作。 一.实践环境: Ubuntu 10.04+jdk1.6+hadoop-0.20.1 机器名 IP 作用 Master 192.168.128.2 ...原创 2019-05-14 14:31:43 · 364 阅读 · 0 评论 -
Hadoop分布式安装
一、安装准备 1、下载Hadoop 0.20.2,地址:http://www.apache.org/dist/hadoop/core/hadoop-0.20.2/ 2、JDK版本:jdk-6u20-linux-i586.bin (必须是1.6) 3、操作系统:Linux s132 2.6.9-78.8AXS2smp #1 SMP Tue Dec 16 02:42:55 EST 2008 x8...原创 2019-05-14 14:29:02 · 394 阅读 · 0 评论 -
用 Linux 和 Apache Hadoop 进行云计算
IBM?、Google、VMWare 和 Amazon 等公司已经开始提供云计算产品和战略。本文讲解如何使用 ApacheHadoop构建一个 MapReduce 框架以建立 Hadoop 集群,以及如何创建在 Hadoop 上运行的示例 MapReduce 应用程序。还将讨论如何在云上设置耗费时间/磁盘的任务。 云计算简介 近来云计算越来越热门了,云计算已经被看作 IT 业的新趋势。云计...原创 2019-05-14 14:24:08 · 167 阅读 · 0 评论 -
Hadoop完全分布式配置
环境:CentOS5、Hadoop0.20.203、jdk1.6.0_29 namenode:centos1(ip:192.168.1.101) datanode:centos2(ip:192.168.1.103)、centos3(ip:192.168.1.104) 配置步骤: (1)配置NameNode和DataNode 修改每台机器的/etc/hosts(包括namenode和dat...原创 2019-05-16 20:46:45 · 215 阅读 · 0 评论