![](https://img-blog.csdnimg.cn/20201014180756928.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
自己记录
Java海洋
从事JAVA 开发,大数据开发10多年,目前在一家互联网公司做技术负责人
展开
-
WordCount运行原理结合代码详细分析
1、MapReduce理论简介 1.1 MapReduce编程模型 MapReduce采用"分而治之"的思想,把对大规模数据集的操作,分发给一个主节点管理下的各个分节点共同完成,然后通过整合各个节点的中间结果,得到最终结果。简单地说,MapReduce就是"任务的分解与结果的汇总"。 在Hadoop中,用于执行MapReduce任务的机器角色有两个:一个是Job转载 2014-09-29 16:59:23 · 7147 阅读 · 2 评论 -
Hadoop运行原理
我们通过下面这个天气数据处理的例子来说明Hadoop的运行原理.1、Map-Reduce的逻辑过程假设我们需要处理一批有关天气的数据,其格式如下:按照ASCII码存储,每行一条记录每一行字符从0开始计数,第15个到第18个字符为年第25个到第29个字符为温度,其中第25位是符号+/-0067011990999991950051507+0000+转载 2014-06-04 14:36:46 · 868 阅读 · 0 评论 -
HDFS核心优点
1.错误检测和快速、自动的恢复是HDFS最核心的架构目标原创 2014-04-10 17:40:23 · 2733 阅读 · 0 评论 -
Hadoop\Linux问题资料总结
地址:http://bbs.csdn.net/topics/390684266原创 2014-02-21 10:39:10 · 774 阅读 · 0 评论 -
Hadoop2.2.0伪分布式安装及测试笔记
一:环境准备:基于Windows下的VM9的ubuntu12.04-64server.下载免费的VMware Player并安装好;下载 免费的Ubuntu 12.04 server版并在VMware中安装好;二:基础安装:执行如下命令升级部分软件和把ssh安装好: (1) sudo apt-get update; (2) sudo apt-get up原创 2014-03-20 17:31:43 · 5615 阅读 · 0 评论 -
HADOOP基本操作命令
在这篇文章中,我们默认认为Hadoop环境已经由运维人员配置好直接可以使用。假设Hadoop的安装目录HADOOP_HOME为/home/admin/hadoop。启动与关闭启动HADOOP1. 进入HADOOP_HOME目录。2. 执行sh bin/start-all.sh关闭HADOOP1. 进入HADOOP_HOME转载 2014-03-28 17:17:31 · 2614 阅读 · 0 评论 -
简单介绍Hadoop学习思路
1.多看看hadoop的官网,了解官网上都有什么,官网的结构,以后遇到问题懂得去找 2.第2想办法了解hadoop的原理是什么,网上资源很多,你要搞清楚他包含什么,什么是hdfs,什么是mapreduce,他能做什么。有人问你的时候你能深入浅出的解答。想想你们公司现在的应用哪些是可以用hadoop解决的,为什么? 3.买一本叫做hadoop权威指南的书看看 4.原创 2014-03-03 16:48:07 · 1203 阅读 · 0 评论 -
Hadoop管理员的十个最佳实践
接触Hadoop有两年的时间了,期间遇到很多的问题,既有经典的NameNode和JobTracker内存溢出故障,也有HDFS存储小文件问题,既有任务调度问题,也有MapReduce性能问题.遇到的这些问题有些是Hadoop自身的缺陷(短板),有些则是使用的不当。在解决问题的过程中,有时需要翻源码,有时会向同事、网友请教,遇到复杂问题则会通过mail list向全球各地Hadoop使用者,转载 2013-11-29 15:40:51 · 887 阅读 · 0 评论 -
Hadoop 基础数据平台开发招聘要求总结
熟悉java集合类、io、concurrent编程,熟悉jvm原理及内存管理。熟悉hadoop、hive、hbase等开源项目,一年以上Hadoop平台开发经验。深入理解Hadoop原理,精读过hadoop、hive、hbase其中一个源码优先。熟悉Linux/Unix操作系统,熟悉脚本编程(Shell/Python/Perl其中一种)。未完,待续原创 2013-12-20 16:35:00 · 1564 阅读 · 0 评论 -
Hadoop集群配置(最全面总结)
通常,集群里的一台机器被指定为 NameNode,另一台不同的机器被指定为JobTracker。这些机器是masters。余下的机器即作为DataNode也作为TaskTracker。这些机器是slaves\官方地址:(http://hadoop.apache.org/common/docs/r0.19.2/cn/cluster_setup.html)1 先决条件确保在转载 2013-08-16 17:51:25 · 1085 阅读 · 0 评论 -
淘宝客推广步骤
国内互联网三大广告联盟平台中,虽然Google Adsense、百度广告联盟是用户使用的比较多的,像一些大站如新浪、优酷等都能见到谷歌广告的身影,但是如果以广告赢利的利润来分析来看,阿里妈妈淘宝联盟广告或许要高很多。以一个日IP为100的个人网站为例,以我的经验如果放谷歌广告、百度广告,一天的收入不会超过人民币1块钱,但是如果是淘宝客网站,只要流量精准,SEO关键词设置得当,100的IP以转载 2014-04-30 09:20:42 · 7006 阅读 · 1 评论 -
SSH免登录设置
最近在搞hadoop所有涉及到了master到slave的登陆,为了简便所有将master访问所有slave都配置成了免登陆方式,具体步骤:1、在master机器上创建密钥:ssh-keygen -t rsa -P ''会在.ssh文件夹下生成公钥:id_rsa.pub;密钥:id_rsa2、将公钥添加至authorized_keys中:cat ~/.ssh转载 2014-07-20 22:36:40 · 850 阅读 · 0 评论 -
Hadoop安装遇到的各种异常及解决办法(2)
Failed to set setXIncludeAware(true) for parser遇到此问题一般是jar包冲突的问题。一种情况是我们向java的lib目录添加我们自己的jar包导致hadoop引用jar包的冲突。解决方案就是删除我们自己向系统添加的jar包,重新配置。将自己的jar包或者外部jar放入系统目录会在编译程序时带来方便,但是这不是一种好习惯,我们应该通过修改CL原创 2014-09-14 21:57:07 · 1769 阅读 · 0 评论 -
《hadoop实战2》读书笔记(1)
1.Map与Reduce将输出转化为对的默认方法是:将每行的原创 2014-07-28 17:44:25 · 1181 阅读 · 0 评论 -
window下Eclipse配置联调hadoop1.0.3集群
前序:因在widow下用Eclipse联调hadoop2.2.0运行程序没有成功,网上暂时解决办法不多,就折中了下,连接hadoop1.0.3伪分布式一。用到的环境和工具1.Eclipse采用的是indio版本,这个可以用官网下载2.Eclipse hadoop插件:hadoop-eclipse-plugin-1.0.3.jar, 下载地址:http://download.c原创 2014-09-23 16:35:06 · 1994 阅读 · 1 评论 -
HDFS全面解析涉及基础、命令、API
1、HDFS简介 HDFS(Hadoop Distributed File System)是Hadoop项目的核心子项目,是分布式计算中数据存储管理的基础,是基于流数据模式访问和处理超大文件的需求而开发的,可以运行于廉价的商用服务器上。它所具有的高容错、高可靠性、高可扩展性、高获得性、高吞吐率等特征为海量数据提供了不怕故障的存储,为超大数据集(Large Data Set)的应用处理转载 2014-09-24 14:36:42 · 5050 阅读 · 0 评论 -
如何查看hadoop程序中自己添加的日志
用hadoop也算有一段时间了,一直没有注意过hadoop运行过程中,产生的数据日志,比如说System打印的日志,或者是log4j,slf4j等记录的日志,存放在哪里,日志信息的重要性,在这里散仙就不用多说了,调试任何程序基本上都得需要分析日志。 hadoop的日志主要是MapReduce程序,运行过程中,产生的一些数据日志,除了系统的日志外,还包含一些我们自己在测试时候,或者线上环境输转载 2014-09-29 14:17:10 · 13329 阅读 · 0 评论 -
MapReduce初级经典案例实现
1、数据去重 "数据去重"主要是为了掌握和利用并行化思想来对数据进行有意义的筛选。统计大数据集上的数据种类个数、从网站日志中计算访问地等这些看似庞杂的任务都会涉及数据去重。下面就进入这个实例的MapReduce程序设计。1.1 实例描述 对数据文件中的数据进行去重。数据文件中的每行都是一个数据。 样例输入如下所示: 1)file1:转载 2014-09-29 16:53:40 · 15440 阅读 · 0 评论 -
window下连接hadoop集群基础超详细版
1、Hadoop开发环境简介1.1 Hadoop集群简介 Java版本:jdk-6u31-linux-i586.bin Linux系统:CentOS6.0 Hadoop版本:hadoop-1.0.0.tar.gz1.2 Windows开发简介 Java版本:jdk-6u31-windows-i586.exe Win系统:Window转载 2014-09-23 16:26:46 · 13744 阅读 · 3 评论 -
Hadoop伪分布式环境下故障及解决
1、hadoop fs -ls不能查询,上图————————————————————————————[shim@hadoop ~]$ hadoop fs -lsls: Cannot access .: No such file or directory.[shim@hadoop ~]$ hadoop fs -ls /Found 2 itemsdrwxr-xr-x原创 2014-09-22 10:34:13 · 1067 阅读 · 1 评论 -
Hbase创建表插入查询数据案例
package org.robby;import java.io.IOException;import java.text.DateFormat;import java.text.SimpleDateFormat;import java.util.ArrayList;import java.util.Date;import java.util.HashSet;i原创 2014-09-08 13:14:17 · 6096 阅读 · 0 评论 -
hadoop新框架Yarn详解
Hadoop MapReduceV2(Yarn) 框架简介原 Hadoop MapReduce 框架的问题对于业界的大数据存储及分布式处理系统来说,Hadoop 是耳熟能详的卓越开源分布式文件存储及处理框架,对于 Hadoop 框架的介绍在此不再累述,读者可参考 Hadoop 官方简介。使用和学习过老 Hadoop 框架(0.20.0 及之前版本)的同仁应该很熟悉如下的原 Ma转载 2014-09-06 23:16:17 · 7408 阅读 · 0 评论 -
hadoop面试题总结2
1 使用Hive或者自定义MR实现如下逻辑product_no lac_id moment start_time user_id county_id staytime city_id13429100031 22554 8 2013-03-11 08:55:19.151754088 571 571转载 2014-09-05 11:41:41 · 6795 阅读 · 1 评论 -
hadoop面试题总结1
1. 下面哪个程序负责 HDFS 数据存储。a)NameNode b)Jobtracker c)Datanode d)secondaryNameNode e)tasktracker答案C datanode2. HDfS 中的 block 默认保存几份?a)3 份 b)2 份c)1 份d)不确定答案A默认3分3. 下列哪个程序通常与 NameNode转载 2014-09-05 11:29:10 · 14129 阅读 · 2 评论 -
Hadoop运维问题记录
昨天同事遇到一个hadoop故障,找了半天没看出问题,问到我这里,花了一会解决了一下,估计这是我给暴风的集群解决的最后的故障了,以后就不定给谁解决问题去了。只截下来了Namenode的报错Log,Datanode的刷屏刷过去了,不过都差不多。12345678910转载 2014-11-22 16:59:22 · 2380 阅读 · 0 评论