自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(23)
  • 收藏
  • 关注

原创 Spring3.1新属性管理API:PropertySource、Environment、Profile

Spring3.1提供了新的属性管理API,而且功能非常强大且很完善,对于一些属性配置信息都应该使用新的API来管理。虽然现在Spring已经到4版本了,这篇文章来的晚点。 新的属性管理APIPropertySource:属性源,key-value属性对抽象,比如用于配置数据PropertyResolver:属性解析器,用于解析相应key的valueEnviro

2014-01-08 16:03:11 1471 1

原创 系统API模块——某大型互联网企业用户上网行为日志分析系统

第一部分: 需求分析 用户上网区域分布及变化-user_online_info_area(Hive)字段名地区用户数 日期 字段类型String bigint String 

2014-01-07 09:24:33 1676

原创 项目背景介绍——某大型互联网企业用户上网行为日志分析系统

项目目的• 通过分析,用户的上网日志,来分析用户的一些访问行为喜好。进而进行精准的广告投放与营销• 同时记录用户的上网行为,可以掌握用户的上网情况,如时间、频次等实际生产环境• 每天约有 5T 的数据• 实际运行节点到达 100• 涉及到技术 Hadoop,Hive,HBase,Zookeeper,Ozzie第二部分: 项目架构 

2014-01-07 09:23:48 2776

原创 MapReduce

MapReduceMapReduce: 先映射(即从一种形式转化到另一种形式)(map) 后合并结果(reduce),就这么个东西。 拆成多个子任务(map)--->然后合并结果(reduce)。 还有容错功能? 一台机器挂了,咋办? 映射---化简 提供这么一个框架。 baidu百科http://ba

2013-07-04 08:57:05 788

原创 HDFS Java开发

HDFS Java开发搭建HDFS开发环境1、导入Hadoop Jar包2、建立resources文件夹,加配置文件(core-site.xml  hdfs-site.xml)3、new Configuration 进行操作 Configuration cfg = new Configuration();cfg.addResource();/

2013-07-03 14:02:20 1054

原创 Hadoop HDFS——Hadoop实战初级部分学习笔记

5、Hadoop HDFSHDFS 分布式文件系统,高容错性,部署到成本低的硬件; HDFS架构设计典型的观察者结构,NameNode(1)-----(*)DataNode, NameNode存储元数据,DataNode存小数据, HDFS设计目标假设节点失效是常态,任何一个节点挂了,不影响使用(自动的备份,副本);简单一致的模型,假设一次写

2013-07-02 08:54:10 1900

原创 Hadoop脚本——Hadoop实战初级部分学习笔记

4、Hadoop脚本1、bin目录hadoop:hadoop shellhadoop-config.sh  给hadoop的一些变量赋值 HADOOP_HOME、HADOOP_CONF等 hadoop-deamon.sh call salves.sh start-all.shstart-dfs shstart-

2013-07-02 08:53:47 1330

原创 安装Hadoop——Hadoop实战初级部分学习笔记

3、安装Hadoop 1、window上装   (建议xp 玩玩就行了,实际要在linux)1.1、装JDK(不要装到带空格等目录中。。)1.2、安装cygwin需要安装oenSSL、VIM、Base1.3、在cygwin安装SSHD  ssh-host-config1.4、启动SSHD  net start sshd

2013-07-01 12:29:26 857

原创 典型云平台介绍——《Hadoop实战初级部分》学习笔记

2、典型云平台介绍Google的云计算平台:主要MapReduce、GFS、BigTable。IBM“蓝云”Amazon弹性计算云;国内盛大云 特点易管理灵活性高资源利用率高可靠性低成本安全性 问题数据隐私数据安全 学习云计算,希望能找个高薪工作。加油。谢谢私塾在线这么好

2013-07-01 12:29:02 1065

原创 Hadoop入门——《Hadoop实战初级部分》学习笔记

1、入门:现在云计算比较火,为了赶时髦,买了个视频跟着学。 1、为什么学?大数据,比如1分钟 twitter发超10w信息,facebook浏览量600w,还有如国内的taobao:尤其光棍节。按需推送信息更精确的推广告 现在做hadoop的还比较少,薪水会很高,如android刚出的时候。 2、什么是云计算?

2013-06-29 14:38:02 1142

原创 Hadoop 在Linux 单机上伪分布式 的安装过程

Hadoop 在Linux 单机上伪分布式 的安装过程:1,安装JDKsudo apt-get install openjdk-6-jdk2,配置JAVA 环境变量输入命令:sudo gedit /etc/profile打开profile 在文件最下面加入如下内容:# set java homeexport JAVA_HOME=/usr/

2013-06-29 14:37:02 811

原创 配置Eclipse的Hadoop插件时无法连接HDFS的解决办法

如果直接将下载Hadoop-eclipse-plugin-0.20.203.0.jar复制到eclipse的插件目录中,在连接DFS时会出现错误,提示信息为: "error: failure to login",弹出的错误提示框内容为"An internal error occurred during: "Connecting to DFS hadoop". org/apache/common

2013-06-29 14:36:27 1120

原创 Ubuntu 13.04上搭建Hadoop环境

首先要了解一下Hadoop的运行模式:单机模式(standalone)单机模式是Hadoop的默认模式。当首次解压Hadoop的源码包时,Hadoop无法了解硬件安装环境,便保守地选择了最小配置。在这种默认模式下所有3个XML文件均为空。当配置文件为空时,Hadoop会完全运行在本地。因为不需要与其他节点交互,单机模式就不使用HDFS,也不加载任何Hadoop的守护进程。该模式主要用于

2013-06-29 14:35:29 904

原创 使用0.22.X系列版本的Hadoop

使用0.22.X系列版本的Hadoop快有一年时间了,主要集中在HDFS上。期间自己参与了部署Hadoop集群(1 Server + 20PC),也参与了分析HDFS的源码。这几天,由于项目需要,转移到了0.22.0版本了,需要重新部署Hadoop集群。这次部署要牵扯到mapreduce项目下contribute中的raid。目的是:部署0.22.0版本Hadoop的集群,配置并试用其ra

2013-06-29 14:34:55 749 1

原创 Hadoop Web项目使用Ajax监控Mapreduce过程

adoop Web项目的改进版,新增Ajax技术。Ajax主要是在浏览器中输入hdfs路径时的后台检查和在监控任务执行状态时使用Ajax去和后台交互,获取job信息。项目代码下载免费下载地址在 http://linux.linuxidc.com/用户名与密码都是www.linuxidc.com具体下载目录在 /2013年资料/6月/17日/Hadoop Web项目使

2013-06-29 14:34:14 775

原创 需要调整一些Hadoop的参数配置

在工作过程中,经常需要调整一些Hadoop的参数配置,所以经常会遇到各种各样的问题。比如改了个配置怎么突然namenode起不来啦,加了个jar包怎么让hadoop的jvm加载啊,如何设定log目录啦等等,每次都需要仔细的查一遍启动脚本才能找到原因,费时又费力,因此专门总结了一下以便不时之需。cloudera的hadoop的启动脚本写的异常复杂和零散,各种shell脚本分散在系统的各个角落

2013-06-29 14:33:39 657

原创 Hadoop启动脚本全面详解

在工作过程中,经常需要调整一些Hadoop的参数配置,所以经常会遇到各种各样的问题。比如改了个配置怎么突然namenode起不来啦,加了个jar包怎么让hadoop的jvm加载啊,如何设定log目录啦等等,每次都需要仔细的查一遍启动脚本才能找到原因,费时又费力,因此专门总结了一下以便不时之需。cloudera的hadoop的启动脚本写的异常复杂和零散,各种shell脚本分散在系统的各个角落

2013-06-29 14:33:23 603

原创 Hadoop的计算能力调度算法

最近几个星期一直在修改Hadoop的计算能力调度算法,遇到了这样那样的问题。 我修改的版本是hadoop-0.20.2 第一步: 将hadoop的源码加载到eclipse中配置使用ant编译 第二步: 根据需要修改源码 第三步: 使用ant编译修改内容,这里要提醒的就是要保证编译平台的JDK和运行平台的JDK相同 ant编译的方法是:

2013-06-29 14:31:56 639

原创 使用 HDFS 保存大量小文件

使用 使用使用 使用 HDFS 保存大量小文件的缺点:1.Hadoop NameNode 在内存中保存所有文件的“元信息”数据。据统计,每一个文件需要消耗 NameNode600 字节内存。如果需要保存大量的小文件会对NameNode 造成极大的压力。2.如果采用 Hadoop MapReduce 进行小文件的处理,那么 Mapper 的个数就会跟小文件的个数成线性相关(备注:FileIn

2013-06-29 14:31:02 1113

原创 Hadoop+ZooKeeper+HBase集群配置

公司业务需要使用Hadoop,经过4天,安装完成,记录一下通常,集群里的一台机器被指定为 NameNode,另一台不同的机器被指定为JobTracker,这些机器是masters。余下的机器即作为DataNode也作为TaskTracker,这些机器是slaves。1 先决条件确保在你集群中的每个节点上都安装了所有必需软件:JDK,sshssh 必须安装并且保证

2013-06-29 14:28:44 723

原创 Zookeeper集群配置

在我完成了Hadoop集群配置以后(http://www.linuxidc.com/Linux/2013-06/86347.htm )就需要安装zookeeper每个电脑做相同的操作安装cd /usr/local/srctar zxvf zookeeper-3.4.5.tar.gzmv zookeeper-3.4.5 /usr/local/zookeeperchown

2013-06-29 14:27:44 603

原创 Hadoop入门--Hadoop2伪分布式安装

Hadoop2伪分布式安装: 1、Java环境变量配置 在.bash_profile文件中加入如下环境变量: ####################JAVAHOME#################### exportJAVA_HOME=/usr/lib/jvm/jre-1.6.0-openjdk.x86_64 exportJRE_HOME=$JAVA_H

2013-06-29 14:27:18 519

原创 Hadoop序列化文件SequenceFile

Hadoop序列化文件SequenceFile主要用于解决大量小文件问题,SequenceFile是Hadoop API提供的一种二进制文件支持。这种二进制文件直接将对序列化到文件中,一般对小文件可以使用这种文件合并,即将文件名作为key,文件内容作为value序列化到大文件中。理解点: 1、二进制数据格式,在hadoop上进行mr任务时使用,一般是中间过程mr的输入输出数据

2013-06-29 14:26:43 769

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除