hdngbj-CSDN博客

原创 Spring3.1新属性管理API：PropertySource、Environment、Profile

Spring3.1提供了新的属性管理API，而且功能非常强大且很完善，对于一些属性配置信息都应该使用新的API来管理。虽然现在Spring已经到4版本了，这篇文章来的晚点。新的属性管理APIPropertySource：属性源，key-value属性对抽象，比如用于配置数据PropertyResolver：属性解析器，用于解析相应key的valueEnviro

2014-01-08 16:03:11 1492 1

原创系统API模块——某大型互联网企业用户上网行为日志分析系统

第一部分：需求分析用户上网区域分布及变化-user_online_info_area(Hive)字段名地区用户数日期字段类型String bigint String

2014-01-07 09:24:33 1679

原创项目背景介绍——某大型互联网企业用户上网行为日志分析系统

项目目的• 通过分析，用户的上网日志，来分析用户的一些访问行为喜好。进而进行精准的广告投放与营销• 同时记录用户的上网行为，可以掌握用户的上网情况，如时间、频次等实际生产环境• 每天约有 5T 的数据• 实际运行节点到达 100• 涉及到技术 Hadoop,Hive,HBase,Zookeeper,Ozzie第二部分：项目架构

2014-01-07 09:23:48 2784

原创 MapReduce

MapReduceMapReduce: 先映射（即从一种形式转化到另一种形式）（map）后合并结果(reduce)，就这么个东西。拆成多个子任务（map）--->然后合并结果（reduce）。还有容错功能？一台机器挂了，咋办？映射---化简提供这么一个框架。 baidu百科http://ba

2013-07-04 08:57:05 791

原创 HDFS Java开发

HDFS Java开发搭建HDFS开发环境1、导入Hadoop Jar包2、建立resources文件夹，加配置文件（core-site.xml hdfs-site.xml）3、new Configuration 进行操作 Configuration cfg = new Configuration();cfg.addResource();/

2013-07-03 14:02:20 1059

原创 Hadoop HDFS——Hadoop实战初级部分学习笔记

5、Hadoop HDFSHDFS 分布式文件系统，高容错性，部署到成本低的硬件； HDFS架构设计典型的观察者结构，NameNode(1)-----(*)DataNode， NameNode存储元数据，DataNode存小数据， HDFS设计目标假设节点失效是常态，任何一个节点挂了，不影响使用（自动的备份，副本）；简单一致的模型，假设一次写

2013-07-02 08:54:10 1904

原创 Hadoop脚本——Hadoop实战初级部分学习笔记

4、Hadoop脚本1、bin目录hadoop：hadoop shellhadoop-config.sh 给hadoop的一些变量赋值 HADOOP_HOME、HADOOP_CONF等 hadoop-deamon.sh call salves.sh start-all.shstart-dfs shstart-

2013-07-02 08:53:47 1332

原创安装Hadoop——Hadoop实战初级部分学习笔记

3、安装Hadoop 1、window上装（建议xp 玩玩就行了，实际要在linux）1.1、装JDK（不要装到带空格等目录中。。）1.2、安装cygwin需要安装oenSSL、VIM、Base1.3、在cygwin安装SSHD ssh-host-config1.4、启动SSHD net start sshd

2013-07-01 12:29:26 864

原创典型云平台介绍——《Hadoop实战初级部分》学习笔记

2、典型云平台介绍Google的云计算平台：主要MapReduce、GFS、BigTable。IBM“蓝云”Amazon弹性计算云；国内盛大云特点易管理灵活性高资源利用率高可靠性低成本安全性问题数据隐私数据安全学习云计算，希望能找个高薪工作。加油。谢谢私塾在线这么好

2013-07-01 12:29:02 1069

原创 Hadoop入门——《Hadoop实战初级部分》学习笔记

1、入门：现在云计算比较火，为了赶时髦，买了个视频跟着学。 1、为什么学？大数据，比如1分钟 twitter发超10w信息，facebook浏览量600w，还有如国内的taobao：尤其光棍节。按需推送信息更精确的推广告现在做hadoop的还比较少，薪水会很高，如android刚出的时候。 2、什么是云计算？

2013-06-29 14:38:02 1149

原创 Hadoop 在Linux 单机上伪分布式的安装过程

Hadoop 在Linux 单机上伪分布式的安装过程：1，安装JDKsudo apt-get install openjdk-6-jdk2，配置JAVA 环境变量输入命令：sudo gedit /etc/profile打开profile 在文件最下面加入如下内容：# set java homeexport JAVA_HOME=/usr/

2013-06-29 14:37:02 814

原创配置Eclipse的Hadoop插件时无法连接HDFS的解决办法

如果直接将下载Hadoop-eclipse-plugin-0.20.203.0.jar复制到eclipse的插件目录中，在连接DFS时会出现错误，提示信息为： "error: failure to login",弹出的错误提示框内容为"An internal error occurred during: "Connecting to DFS hadoop". org/apache/common

2013-06-29 14:36:27 1125

原创 Ubuntu 13.04上搭建Hadoop环境

首先要了解一下Hadoop的运行模式：单机模式（standalone）单机模式是Hadoop的默认模式。当首次解压Hadoop的源码包时，Hadoop无法了解硬件安装环境，便保守地选择了最小配置。在这种默认模式下所有3个XML文件均为空。当配置文件为空时，Hadoop会完全运行在本地。因为不需要与其他节点交互，单机模式就不使用HDFS，也不加载任何Hadoop的守护进程。该模式主要用于

2013-06-29 14:35:29 910

原创使用0.22.X系列版本的Hadoop

使用0.22.X系列版本的Hadoop快有一年时间了，主要集中在HDFS上。期间自己参与了部署Hadoop集群(1 Server + 20PC)，也参与了分析HDFS的源码。这几天，由于项目需要，转移到了0.22.0版本了，需要重新部署Hadoop集群。这次部署要牵扯到mapreduce项目下contribute中的raid。目的是：部署0.22.0版本Hadoop的集群，配置并试用其ra

2013-06-29 14:34:55 753 1

原创 Hadoop Web项目使用Ajax监控Mapreduce过程

adoop Web项目的改进版，新增Ajax技术。Ajax主要是在浏览器中输入hdfs路径时的后台检查和在监控任务执行状态时使用Ajax去和后台交互，获取job信息。项目代码下载免费下载地址在 http://linux.linuxidc.com/用户名与密码都是www.linuxidc.com具体下载目录在 /2013年资料/6月/17日/Hadoop Web项目使

2013-06-29 14:34:14 780

原创需要调整一些Hadoop的参数配置

在工作过程中，经常需要调整一些Hadoop的参数配置，所以经常会遇到各种各样的问题。比如改了个配置怎么突然namenode起不来啦，加了个jar包怎么让hadoop的jvm加载啊，如何设定log目录啦等等，每次都需要仔细的查一遍启动脚本才能找到原因，费时又费力，因此专门总结了一下以便不时之需。cloudera的hadoop的启动脚本写的异常复杂和零散，各种shell脚本分散在系统的各个角落

2013-06-29 14:33:39 662

原创 Hadoop启动脚本全面详解

在工作过程中，经常需要调整一些Hadoop的参数配置，所以经常会遇到各种各样的问题。比如改了个配置怎么突然namenode起不来啦，加了个jar包怎么让hadoop的jvm加载啊，如何设定log目录啦等等，每次都需要仔细的查一遍启动脚本才能找到原因，费时又费力，因此专门总结了一下以便不时之需。cloudera的hadoop的启动脚本写的异常复杂和零散，各种shell脚本分散在系统的各个角落

2013-06-29 14:33:23 606

原创 Hadoop的计算能力调度算法

最近几个星期一直在修改Hadoop的计算能力调度算法，遇到了这样那样的问题。我修改的版本是hadoop-0.20.2 第一步：将hadoop的源码加载到eclipse中配置使用ant编译第二步：根据需要修改源码第三步：使用ant编译修改内容，这里要提醒的就是要保证编译平台的JDK和运行平台的JDK相同 ant编译的方法是：

2013-06-29 14:31:56 645

原创使用 HDFS 保存大量小文件

使用使用使用使用 HDFS 保存大量小文件的缺点：1.Hadoop NameNode 在内存中保存所有文件的“元信息”数据。据统计，每一个文件需要消耗 NameNode600 字节内存。如果需要保存大量的小文件会对NameNode 造成极大的压力。2.如果采用 Hadoop MapReduce 进行小文件的处理，那么 Mapper 的个数就会跟小文件的个数成线性相关（备注：FileIn

2013-06-29 14:31:02 1118

原创 Hadoop+ZooKeeper+HBase集群配置

公司业务需要使用Hadoop，经过4天，安装完成，记录一下通常，集群里的一台机器被指定为 NameNode，另一台不同的机器被指定为JobTracker，这些机器是masters。余下的机器即作为DataNode也作为TaskTracker，这些机器是slaves。1 先决条件确保在你集群中的每个节点上都安装了所有必需软件：JDK，sshssh 必须安装并且保证

2013-06-29 14:28:44 728

原创 Zookeeper集群配置

在我完成了Hadoop集群配置以后（http://www.linuxidc.com/Linux/2013-06/86347.htm ）就需要安装zookeeper每个电脑做相同的操作安装cd /usr/local/srctar zxvf zookeeper-3.4.5.tar.gzmv zookeeper-3.4.5 /usr/local/zookeeperchown

2013-06-29 14:27:44 607

原创 Hadoop入门--Hadoop2伪分布式安装

Hadoop2伪分布式安装： 1、Java环境变量配置在.bash_profile文件中加入如下环境变量： ####################JAVAHOME#################### exportJAVA_HOME=/usr/lib/jvm/jre-1.6.0-openjdk.x86_64 exportJRE_HOME=$JAVA_H

2013-06-29 14:27:18 526

原创 Hadoop序列化文件SequenceFile

Hadoop序列化文件SequenceFile主要用于解决大量小文件问题，SequenceFile是Hadoop API提供的一种二进制文件支持。这种二进制文件直接将对序列化到文件中，一般对小文件可以使用这种文件合并，即将文件名作为key，文件内容作为value序列化到大文件中。理解点： 1、二进制数据格式，在hadoop上进行mr任务时使用，一般是中间过程mr的输入输出数据

2013-06-29 14:26:43 774

hdngbj的专栏