![](https://img-blog.csdnimg.cn/20201014180756757.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
hadoop基础
文章平均质量分 54
柱子89
在读学生
展开
-
Hadoop日志到底存在哪里
初学者运行MapReduce作业时,经常会遇到各种错误,由于缺乏经验,往往不知所云,一般直接将终端打印的错误贴到搜索引擎上查找,以借鉴前人的经验。然而,对于hadoop而言,当遇到错误时,第一时间应是查看日志,日志里通产会有详细的错误原因提示,本文将总结Hadoop MapReduce日志存放位置,帮助初学者定位自己遇到的错误。Hadoop MapReduce日志分为两部分,一转载 2016-05-12 15:07:50 · 2398 阅读 · 0 评论 -
1、hadoop环境搭建
安装jdk1、将本地jdk文件上传到linux服务器(适用于想使用本地的jdk,也可自行下载),前提将pscp放到windows/system32下 pscp E:\jdk-7u65-linux-i586.tar.gz hadoop@linuxip地址:/home/hadoop;此处hadoop为Linux的用户名,输入密码,上传成功后,用用户名登录密码2、创建app目原创 2016-05-11 15:50:07 · 453 阅读 · 0 评论 -
hadoop 配置SSH无密码访问
Hadoop运行过程中需要管理远端Hadoop守护进程,在Hadoop启动以后,NameNode是通过SSH(Secure Shell)来启动和停止各个DataNode上的各种守护进程的。这就必须在节点之间执行指令的时候是不需要输入密码的形式,所以我们需要配置SSH运用无密码公钥认证的形式,这样NameNode使用SSH无密码登录并启动DataName进程,同样原理,DataNode上也能使用原创 2016-09-05 21:39:14 · 456 阅读 · 0 评论 -
Hadoop生态上几个技术的关系与区别:hive、pig、hbase 关系与区别
初接触Hadoop技术的朋友肯定会对它体系下寄生的个个开源项目糊涂了,我敢保证Hive,Pig,HBase这些开源技术会把你搞的有些糊涂,不要紧糊涂的不止你一个,如某个菜鸟的帖子的疑问,when to use Hbase and when to use Hive?....请教了^_^没关系这里我帮大家理清每个技术的原理和思路。Pig一种操作hadoop的轻量级脚本语言,最初又雅转载 2016-09-28 19:30:32 · 276 阅读 · 0 评论 -
hadoop强制进行Active/Standby切换的命令
hdfs haadmin -transitionToActive/transitionToStandby -forcemanual nn1原创 2016-10-14 19:18:56 · 3930 阅读 · 1 评论 -
Apriori算法与PFP-Growth算法推演比较
Apriori算法是机器学习的一个基础算法,用于找出频繁项集,也即为购物篮算法。但是Apriori算法要多次遍历全量数据,效率较低,FP-Growth算法是对Apriori算法的改进(见韩家炜《数据挖掘:概念与技术》),而PFP-Growth算法是对FP-Growth进行了Map-Reduce化,使FP-Growth能够处理海量的数据。 PFP-Growth算法论文见http://i转载 2016-10-17 18:07:39 · 1343 阅读 · 0 评论 -
关于在阿里云服务器或者腾讯云服务器(或者两者混合)搭建Hadoop 2.0 HA的注意事项
我是用阿里云和腾讯云混合的三台服务器搭建hadoop2.0 HA,按照教程总是出现莫名其妙的错误,用了三天时间才解决,下面是注意事项1.配置hosts文件的时候,本机用内网ip和主机名映射,并添加其他机器的公网ip和主机名的映射。这是关键,由于之前三台机器的hosts文件要不都是内网ip,要不都是公网ip,结果总是出错2.hadoop和zookeeper相关的配置文件尽量都用公网ip地原创 2016-06-03 15:17:08 · 3357 阅读 · 6 评论 -
Hive的几种数据导入方式
好久没写Hive的那些事了,今天开始写点吧。今天的话题是总结Hive的几种常见的数据导入方式,我总结为四种:(1)、从本地文件系统中导入数据到Hive表;(2)、从HDFS上导入数据到Hive表;(3)、从别的表中查询出相应的数据并导入到Hive表中;(4)、在创建表的时候通过从别的表中查询出相应的记录并插入到所创建的表中。我会对每一种数据的导入进行实际的操作,因为纯粹的文字让转载 2016-12-02 19:04:38 · 314 阅读 · 0 评论 -
hadoop 2.0中配置文件详解
配置hadoop,主要是配置core-site.xml,hdfs-site.xml,mapred-site.xml,yarn-default.xml四个配置文件,默认下来,这些配置文件都是空的,所以很难知道这些配置文件有哪些配置可以生效,上网找的配置可能因为各个hadoop版本不同,导致无法生效。浏览更多的配置,有两个方法:1.选择相应版本的hadoop,下载解压后,搜索*原创 2017-06-08 18:32:36 · 523 阅读 · 0 评论 -
将本地文件读成sequenceFile文件,处理海量小文件的一种方式
个人观点:当处理海量小文件时,先将小文件进行sequenceFile操作或者类似操作处理,然后再上传到HDFS系统进行下一步的处理。(如有其它建议,欢迎留言) 一、直接上传本地栅格数据将导致的问题 根据栅格数据的特点,每层的图片个数都为上层数量的四倍。在第20层时,仅仅第20层的图片的数量达到了“2199023255552”张(世界地图在第一层被切成了两张转载 2017-07-19 15:31:28 · 3587 阅读 · 0 评论 -
自定义数据类型写入SequenceFile并读出
开头对这边博客的内容做个概述,首先是定义了一个DoubleArrayWritable的类,用于存放矩阵的列向量,然后将其作为value写入SequenceFile中,key就是对应的矩阵的列号,最后(key,value)从SequenceFile中读出,与另一矩阵做乘法。完全通过IDEA在本地调试程序,并未提交集群。一般来说是将hadoop-core-1.2.1.jar和lib目录下的common转载 2017-07-19 15:35:45 · 914 阅读 · 0 评论 -
Mahout 常用相似度度量(笔记)
出自:http://now51jq.blog.51cto.com/3474143/1539515Mahout 基于推荐系统,分类,聚类算法 等经常用到的相似度度量:PearsonCorrelationSimilarity 皮尔森距离EuclideanDistanceSimilarity 欧几里德距离CosineMeasureS转载 2016-08-05 18:55:13 · 285 阅读 · 0 评论 -
Hadoop CombineFileInputFormat原理说明
mapreduce中,一个job的map个数, 每个map处理的数据量是如何决定的呢? 另外每个map又是如何读取输入文件的内容呢? 用户是否可以自己决定如何输入, 决定map个数呢? 这篇文章将详细讲述hadoop中各种InputFormat的功能和如何编写自定义的InputFormat. 简介: mapreduce作业会根据输入目录产生多个map任务, 通过多个map任务并行执行来提高转载 2016-08-04 15:56:44 · 665 阅读 · 0 评论 -
windows下基于Eclipse的Hadoop应用开发环境配置
基于Eclipse的Hadoop应用开发环境配置我的开发环境:操作系统centos5.5 一个namenode 两个datanodeHadoop版本:hadoop-0.20.203.0Eclipse版本:eclipse-java-helios-SR2-linux-gtk.tar.gz(使用3.7的版本总是崩溃,让人郁闷)第一步:先启动hadoop守护进程具体参看:htt转载 2016-05-23 10:28:22 · 389 阅读 · 0 评论 -
kafka 启动 报错cannot allocate memory,即内存不足
错误提示:Java Hotspot(TM) 64-Bit Server VM warning: INFO: os::commit_memory(0x00000000c5330000, 986513408, 0) failed; error='Cannot allocate memory' (errno=12)## There is insufficient memory for the Jav原创 2016-06-28 09:49:20 · 12419 阅读 · 2 评论 -
退出启动storm的命令界面
storm启动后,命令界面很难退出,可以通过ctrl+shift+F2退出,重新登录,达到效果原创 2016-06-28 10:10:02 · 672 阅读 · 0 评论 -
kafka前台启动和后台启动
前台启动:bin/kafka-server-start.sh config/server.properties后台启动:bin/kafka-server-start.sh config/server.properties 1>/dev/null 2>&1 &原创 2016-06-28 10:58:21 · 6858 阅读 · 0 评论 -
Hadoop中HDFS的常用命令
hadoop常用命令: hadoop fs 查看Hadoop HDFS支持的所有命令 hadoop fs –ls 列出目录及文件信息 hadoop fs –lsr 循环列出目录、子目录及文件信息 hadoop fs –put test.txt /user/sunlightcs 将本地文件系统的test.t转载 2016-07-14 09:55:39 · 662 阅读 · 0 评论 -
将linux本地文件夹上传到hdfs服务器
import java.io.BufferedInputStream;import java.io.File;import java.io.FileInputStream;import java.io.InputStream;import java.io.OutputStream;import org.apache.hadoop.conf.Configuration;原创 2016-07-26 16:25:15 · 3501 阅读 · 0 评论 -
Pig安装配置及基本使用
前置条件成功安装配置Hadoop集群下载并解压pig安装包下载地址:http://pig.apache.org/解压pig安装包:tar -zxvf pig-0.12.0.tar.gz 环境变量Pig工作模式本地模式:只需要配置PATH环境变量${PIG_HOME}/bin即可,适用于测试Mapreduce模式:需要添加环境变量PIG_CLASSPATH=${H转载 2016-07-18 16:41:38 · 970 阅读 · 0 评论 -
pig 分析 脚本
--读取数据data = LOAD '/user/mapred/PigData.txt' USING PigStorage('|') AS ( imsi:chararray,time:chararray,loc:chararray);--转换格式REGISTER /home/mapred/software/hadoops/pig/pig-0.11.1/contrib/piggy转载 2016-07-18 17:52:18 · 287 阅读 · 0 评论 -
Pig安装及本地模式测试,体验
Pig是Apache的一个开源项目,用于简化MapReduce的开发。研究了一段时间,略有心得。系废话不多说,我们直接步入实际测试。 Pig的运行有两种模式,本地单击模式和集群模式。我目前只是测试学习,是为了检验Pig的运行流程以及学习语法,没必要使用分布式模式,分布式模式下也都是大同小异的。 我的环境: 1. 系统: Ubuntu 12.04 64位 2. JDK:O转载 2016-07-18 18:32:29 · 559 阅读 · 1 评论 -
Hdfs将服务器的整个文件夹拷贝到Linux本地
import java.io.File;import java.io.FileOutputStream;import java.net.URI;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.fs.FileSystem;import org.apache.hadoop.fs.FSDataI原创 2016-07-20 11:01:51 · 1906 阅读 · 0 评论 -
利用 Hadoop FileSystem listStatus 遍历文件目录 实现HDFS操作
Hadoop 版本 2.7.0利用 hadoop FileSystem listStatus 遍历文件目录 实现HDFS操作package com.feng.test.hdfs.filesystem;import java.net.URI;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.转载 2017-07-19 15:40:58 · 6648 阅读 · 1 评论