自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

程序员成长之路

我是一名Java软件开发工程师,通过将我在工作中遇到的问题和问题的解决办法写成文章分享给大家,希望对大家有所帮助

  • 博客(29)
  • 资源 (1)
  • 收藏
  • 关注

原创 菜鸟部署测试spark

废话少说直接 部署方案,为了便于测试我将采用local的模式 master -> hadoop00 worker -> hadoop00 cd conf目录下配置spark-env.sh,添加如下配置项 export SPARK_MASTER_IP=hadoop00 export SPARK_WORKER_CORES=1 export SPARK_WORKER_INSTANCES=1

2014-07-05 12:00:10 786

原创 Hive总结

hvive总结: 简介:     Hive是建立在 Hadoop 上的数据仓库基础构架。它提供了一系列的工具,可以用来进行数据提取转化加载(ETL),这是一种可以存储、查询和分析存储在 Hadoop 中的大规模数据的机制。Hive 定义了简单的类 SQL 查询语言,称为 HQL,它允许熟悉 SQL 的用户查询数据。同时,这个语言也允许熟悉MapReduce 开发者的开发 自定义的 mapp

2014-04-06 19:07:23 753

原创 hadoop集群搭建

1.配置Linux环境 1.1选择Host-only方式 1.2修改Linux的IP vim /etc/sysconfig/network-scripts/ifcfg-eth0 文件内容如下 DEVICE="eth0" BOOTPROTO="static"              #设置IP属性为静态 HWADDR="00:0C:29:3C:BF:E7" IPV6INIT="ye

2014-03-30 18:38:15 522

原创 hadoop运维问题汇总,持续更新

1.hadoop运行一段时间后关闭集群居然报了no、

2014-06-09 09:20:34 791

原创 Hive0.10+Hbase0.96整合使用

我做的是Hive0.10+Hbase0.96的整合,其他版本的

2014-05-30 17:14:45 914

原创 低版本升级到hadoop2

HDFS升级,是hadoop集群升级到2.0的关键,而hdfs升级,最重要的是namenode的升级。 首先声明:在 HA 模式下,namenode是不能升级的! 2013-10-25 16:28:24,669 FATAL org.apache.hadoop.hdfs.server.namenode.NameNode: Exception in namenode join org.apach

2014-05-28 10:07:07 1493 2

原创 Hadoop生态圈开源项目总结

一.Hadoop总结 1.HDFS shell 1.0查看帮助 hadoop fs -help 1.1上传 hadoop fs -put 1.2查看文件内容 hadoop fs -cat 1.3查看文件列表 hadoop fs -ls / 1.4下载文件 hadoop fs -get 1.5删除文件 hadoop fs -rmr 1.6创建文件夹 had

2014-04-07 21:29:54 830

原创 Hadoop生态圈常用命令

Hadoop生态圈常用命令 1.格式化HDFS hadoop namenode -format 2.启动start-all.sh start-dfs.sh start-mapred.sh 3.ssh免登陆 在root的.ssh文件夹中执行ssh-keygen -t rsa 拷贝到目标节点:ssh-copy-id -i 192.168.35.101 4.MapRedece执行jar

2014-04-07 21:28:56 624

原创 Flume-ng分布式部署和配置

Flume-ng分布式部署总结 1.日志总接收端的配置(负责接收各个节点发送过来的日志数据),修改flume的安装目录下/conf/flume-conf.properties配置文件(默认没有,cp flumeconf.properties.template flume-conf.properties) agent.sources = avrosrc   agent.channels = m

2014-04-07 15:35:51 2547 1

原创 JVM调优

个人在平时工作中总结了几条关于JVM调优的方法如下: 1.栈内存Stack特点空间比较小,速度快,用来存放对象的引用及程序中的基本类型,堆内存Heap的特点空间比较大,速度慢,一般对象都在这里生成、使用和消亡。  栈空间是有线程开辟的,线程结束栈空间由JVM回收,当程序运行所需超过栈内存的容量时会报StackOverflowError错误,通过java -Xss设置栈内存的大小,堆内存的大小不

2014-04-02 17:17:08 590

转载 基于线程安全的单例

基于线程安全的单例: public final class EagerSingleton  {      private static EagerSingleton singObj = new EagerSingleton();        private EagerSingleton(){      }        public static EagerSing

2014-04-02 16:04:35 538

转载 HBase RowKey设计原则

本文引自淘宝技术部文章:http://rdc.taobao.org/?p=457 建议使用String如果不是特殊要求,RowKey最好都是String。 方便线上使用Shell查数据、排查错误 更容易让数据均匀分布 不必考虑存储成本 RowKey的长度尽量短如果RowKey太长话,第一是,存储开销会增加,影响存储效率;第二是,内存中Rowkey字段过长,内存的利用率

2014-04-02 10:17:29 2606 1

原创 storm详解一

Topology结构图如下: 1.Topology的启动和关闭 1)启动Topology: 将编辑好的jar文件拷到一个文件目录下,如/cloud/storm/jar storm jar /cloud/storm/jar/demo.jar org.me.MyTopology arg1 arg2arg3 其中,demo.jar是包含Topology实现代码的jar包,org.me.

2014-03-31 21:11:22 658

原创 Storm安装配置

1.编译安装ZMQ: tar -xzf zeromq-2.1.7.tar.gz cd zeromq-2.1.7 ./configure #编译可能会出错:configure:error: Unable to find a working C++ compiler #安装一下依赖的rpm包:libstdc++-develgcc-c++ 可以上网的情况下: yum install gc

2014-03-31 14:07:26 818

原创 Hadoop优化总结

经过一年多对hadoop的学习和使用对hadoop的优化做了一下总结,如下: 1.开启带外心跳 带外心跳不同于常规心跳(集群规模小于300,1.x以后的时间间隔为0.3秒),他是任务运行结束或者任务运行失败时触发的,能够在出现空闲资源时第一时间通知JobTracker, 以便它能够迅速为空闲资源分配新的任务。 mapreduce.tasktracker.outofband.heartb

2014-03-31 13:52:04 1069

原创 Flume安装使用

Flume官方提供Flume的原理图 Flume安装 1.将Flume解压到/cloud目录下 tar -zxvf apache-flume-1.4.0-bin.tar.gz -C /cloud 2.配置文件 手动编写一个配置文件(a3.conf)格式如下 #定义agent名, source、channel、sink的名称 a3.sources = r1 a3.channe

2014-03-30 19:17:14 709

原创 Hive安装和使用

Hive只在一个节点上安装即可 1.上传tar包 2.解压 tar -zxvf hive-0.9.0.tar.gz -C /cloud/ 配置HIVE_HOME环境变量 3.将hive的metastore设置为mysql (切换到root用户) 配置hive cp hive-default.xml.template hive-site.xml  修改hive-site.x

2014-03-30 19:05:18 581

原创 MapReduce实现倒排序索引

import java.io.IOException;   import java.util.StringTokenizer;      import org.apache.hadoop.conf.Configuration;   import org.apache.hadoop.fs.Path;   import org.apache.hadoop.io.Text;   import

2014-03-30 18:57:30 676

原创 Linux安装MySQL数据库

1、准备安装程序(官方网站下载) 服务端:MySQL-server-community-5.1.44-1.rhel4.i386.rpm 客户端:MySQL-client-community-5.1.44-1.rhel4.i386.rpm 2、安装(打印信息略) [root@localhost /]#rpm -ivh MySQL-server-community-5.1.44-1.rhel4

2014-03-30 18:48:49 439

原创 Hbase集群搭建

hbase适合场景:存储大量数据、表关系不高,实时写入快速读取 1.上传hbase安装包 2.解压  tar -zxvf hbase-0.94.7-security.tar.gz -C /cloud 3.配置hbase集群,要修改3个文件(首先zk集群已经安装好了) 3.1修改hbase-env.sh export JAVA_HOME=/usr/java/jdk1.6.0_45

2014-03-30 18:45:40 588

原创 Shuffle执行过程分析

Shuffle执行过程 Map端: 1.每个输入分片会让一个map任务来处理,默认情况下,以HDFS的一个块的大小(默认为64M)为一个分片,当然我们也可以设置块的大小。map输出的结果会暂且放在一个环形内存缓冲区中(该缓冲区的大小默认为100M,由io.sort.mb属性控制),当该缓冲区快要溢出时(默认为缓冲区大小的80%,由io.sort.spill.percent属性控制),会在本

2014-03-30 18:26:13 750

原创 MapReduce作业运行流程

一.MapReduce作业运行流程       根据源码分析作业的提交流程时序图如下 MR的作业流程图: 1.在客户端启动一个作业。 2.通过JobClient向JobTracker请求一个Job ID和资源文件存放路径。 3.将运行作业所需要的资源文件复制到HDFS上,包括MapReduce程序打包的JAR文件、配置文件和客户端计算所得的输入划分信息(通

2014-03-30 18:18:45 1513

转载 Java NIO原理图文分析

一.java NIO 和阻塞I/O的区别      1. 阻塞I/O通信模型      2. java NIO原理及通信模型 二.java NIO服务端和客户端代码实现  具体分析:  一.java NIO 和阻塞I/O的区别  1. 阻塞I/O通信模型  假如现在你对阻塞I/O已有了一定了解,我们知道阻塞I/O在调用InputStream.read()方法时是阻塞的

2014-03-19 10:34:47 821

转载 协同过滤推荐算法

原始博客地址:http://blog.sina.com.cn/s/blog_73de143c010153vp.html 协同过滤是一种基于一组兴趣相同的用户或项目进行的推荐,它根据邻居用户(与目标用户兴趣相似的用户)的偏好信息产生对目标用户的推荐列表。协同过滤算法主要分为基于用户的协同过滤算法和基于项目的协同过滤算法。  基于用户的(User based)协同过滤算法是根据邻居用户的偏好信息产

2014-03-13 09:31:49 1117

原创 Linux常用命令

1.vi的日常用法 打开test.txt文件并编辑:vi test.txt,vi打开文件状态:1)只读 2)可编辑 3)命令。 在只读状态下按下按键a或i进入编辑状态,退出编辑状态按ESC,使用组合键shift + : 进入命令状态 wq保存退出。 如果不是正常退出,采用强行关闭的方式会在同一目录下产生缓存文件例 .test.swp的文件,当在打开test.txt文件时会提示报错,要采用

2014-03-13 00:54:56 414

转载 erlang lists模块函数使用大全

一,带函数Pred 1, all(Pred, List) -> boolean() 如果List中的每个元素作为Pred函数的参数执行,结果都返回true,那么all函数返回true, 否则返回false 例子: lists:all(fun(E) -> true end,[1,2,3,4]). 结果 true 2, any(Pred, List) -> bo

2013-07-28 10:47:00 792

转载 Python的易混地带

Python的易混地带   每门编程语言都有易混淆的部分,下面列举出一些Python的易混淆知识点。 == 和 is 的区别 在Python中,”==” 操作符测试值的相等性; “is”表达式测试对象的一致性,即是否指向同一个对象。 list1 = [1,('a',3)] list2 = [1,('a',3)] list1 == list2, lis

2013-07-14 16:36:14 608

转载 jsp向后台传中文,tomcat和weblogic下中文乱码解决方法

前端jsp:GBK编码         var groupsName = "全体组";         window.location.href="http://archive.cnblogs.com/a/2192992/skillGroups="+groupsName; 后台:GBK编码         String groupsName = request.getParameter

2013-02-03 16:21:10 715

转载 webservice简单详细的实现方法

首先一定要下载包到 http://ws.Apache.org/axis/网站下载Axis安装包. 然后最重要的就写wsdd 文件,好多例子都说先写deploy.wsdd文件,如下: http://xml.apache.org/axis/wsdd/" xmlns:java="" target="_blank">http://xml.apache.org/axis/wsdd/providers/j

2012-11-09 14:44:29 649 1

Hadoop技术内幕

一个很好的关于分布式框架,Hadoop可以很方便的实现分布式并发编程

2013-06-10

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除