肖的博客-CSDN博客

原创菜鸟部署测试spark

废话少说直接部署方案,为了便于测试我将采用local的模式master -> hadoop00worker -> hadoop00cd conf目录下配置spark-env.sh，添加如下配置项export SPARK_MASTER_IP=hadoop00export SPARK_WORKER_CORES=1export SPARK_WORKER_INSTANCES=1

2014-07-05 12:00:10 874

原创 Hive总结

hvive总结：简介： Hive是建立在 Hadoop 上的数据仓库基础构架。它提供了一系列的工具，可以用来进行数据提取转化加载（ETL），这是一种可以存储、查询和分析存储在 Hadoop中的大规模数据的机制。Hive 定义了简单的类 SQL 查询语言，称为 HQL，它允许熟悉 SQL 的用户查询数据。同时，这个语言也允许熟悉MapReduce 开发者的开发自定义的 mapp

2014-04-06 19:07:23 1115

原创 hadoop集群搭建

1.配置Linux环境1.1选择Host-only方式1.2修改Linux的IPvim /etc/sysconfig/network-scripts/ifcfg-eth0文件内容如下DEVICE="eth0"BOOTPROTO="static" #设置IP属性为静态HWADDR="00:0C:29:3C:BF:E7"IPV6INIT="ye

2014-03-30 18:38:15 583

原创 hadoop运维问题汇总，持续更新

1.hadoop运行一段时间后关闭集群居然报了no、

2014-06-09 09:20:34 892

原创 Hive0.10+Hbase0.96整合使用

我做的是Hive0.10+Hbase0.96的整合，其他版本的

2014-05-30 17:14:45 1007

原创低版本升级到hadoop2

HDFS升级，是hadoop集群升级到2.0的关键，而hdfs升级，最重要的是namenode的升级。首先声明：在 HA 模式下，namenode是不能升级的！2013-10-25 16:28:24,669 FATAL org.apache.hadoop.hdfs.server.namenode.NameNode: Exception in namenode joinorg.apach

2014-05-28 10:07:07 1608 1

原创 Hadoop生态圈开源项目总结

一.Hadoop总结1.HDFS shell1.0查看帮助hadoop fs -help 1.1上传hadoop fs -put 1.2查看文件内容hadoop fs -cat 1.3查看文件列表hadoop fs -ls /1.4下载文件hadoop fs -get 1.5删除文件hadoop fs -rmr 1.6创建文件夹had

2014-04-07 21:29:54 1036

原创 Hadoop生态圈常用命令

Hadoop生态圈常用命令1.格式化HDFShadoop namenode -format2.启动start-all.shstart-dfs.shstart-mapred.sh3.ssh免登陆在root的.ssh文件夹中执行ssh-keygen -t rsa拷贝到目标节点:ssh-copy-id -i 192.168.35.1014.MapRedece执行jar

2014-04-07 21:28:56 711

原创 Flume-ng分布式部署和配置

Flume-ng分布式部署总结1.日志总接收端的配置（负责接收各个节点发送过来的日志数据）,修改flume的安装目录下/conf/flume-conf.properties配置文件（默认没有，cp flumeconf.properties.template flume-conf.properties）agent.sources = avrosrc agent.channels = m

2014-04-07 15:35:51 2679 1

原创 JVM调优

个人在平时工作中总结了几条关于JVM调优的方法如下：1.栈内存Stack特点空间比较小，速度快，用来存放对象的引用及程序中的基本类型，堆内存Heap的特点空间比较大，速度慢，一般对象都在这里生成、使用和消亡。栈空间是有线程开辟的，线程结束栈空间由JVM回收，当程序运行所需超过栈内存的容量时会报StackOverflowError错误，通过java -Xss设置栈内存的大小，堆内存的大小不

2014-04-02 17:17:08 634

转载基于线程安全的单例

基于线程安全的单例：public final class EagerSingleton { private static EagerSingleton singObj = new EagerSingleton(); private EagerSingleton(){ } public static EagerSing

2014-04-02 16:04:35 594

转载 HBase RowKey设计原则

本文引自淘宝技术部文章：http://rdc.taobao.org/?p=457建议使用String如果不是特殊要求，RowKey最好都是String。方便线上使用Shell查数据、排查错误更容易让数据均匀分布不必考虑存储成本RowKey的长度尽量短如果RowKey太长话，第一是，存储开销会增加，影响存储效率；第二是，内存中Rowkey字段过长，内存的利用率

2014-04-02 10:17:29 2786

原创 storm详解一

Topology结构图如下：1.Topology的启动和关闭1）启动Topology：将编辑好的jar文件拷到一个文件目录下，如/cloud/storm/jarstorm jar /cloud/storm/jar/demo.jar org.me.MyTopology arg1 arg2arg3其中，demo.jar是包含Topology实现代码的jar包，org.me.

2014-03-31 21:11:22 724

原创 Storm安装配置

1.编译安装ZMQ：tar -xzf zeromq-2.1.7.tar.gzcd zeromq-2.1.7./configure#编译可能会出错：configure:error: Unable to find a working C++ compiler#安装一下依赖的rpm包：libstdc++-develgcc-c++ 可以上网的情况下：yum install gc

2014-03-31 14:07:26 907

原创 Hadoop优化总结

经过一年多对hadoop的学习和使用对hadoop的优化做了一下总结，如下：1.开启带外心跳带外心跳不同于常规心跳（集群规模小于300，1.x以后的时间间隔为0.3秒），他是任务运行结束或者任务运行失败时触发的，能够在出现空闲资源时第一时间通知JobTracker，以便它能够迅速为空闲资源分配新的任务。mapreduce.tasktracker.outofband.heartb

2014-03-31 13:52:04 1185

原创 Flume安装使用

Flume官方提供Flume的原理图Flume安装1.将Flume解压到/cloud目录下tar -zxvf apache-flume-1.4.0-bin.tar.gz -C /cloud2.配置文件手动编写一个配置文件（a3.conf）格式如下#定义agent名， source、channel、sink的名称a3.sources = r1a3.channe

2014-03-30 19:17:14 903

原创 Hive安装和使用

Hive只在一个节点上安装即可1.上传tar包2.解压tar -zxvf hive-0.9.0.tar.gz -C /cloud/配置HIVE_HOME环境变量3.将hive的metastore设置为mysql （切换到root用户）配置hivecp hive-default.xml.template hive-site.xml 修改hive-site.x

2014-03-30 19:05:18 648

原创 MapReduce实现倒排序索引

import java.io.IOException; import java.util.StringTokenizer; import org.apache.hadoop.conf.Configuration; import org.apache.hadoop.fs.Path; import org.apache.hadoop.io.Text; import

2014-03-30 18:57:30 831

原创 Linux安装MySQL数据库

1、准备安装程序(官方网站下载)服务端：MySQL-server-community-5.1.44-1.rhel4.i386.rpm客户端：MySQL-client-community-5.1.44-1.rhel4.i386.rpm2、安装(打印信息略)[root@localhost /]#rpm -ivh MySQL-server-community-5.1.44-1.rhel4

2014-03-30 18:48:49 479

原创 Hbase集群搭建

hbase适合场景：存储大量数据、表关系不高，实时写入快速读取1.上传hbase安装包2.解压 tar -zxvf hbase-0.94.7-security.tar.gz -C /cloud3.配置hbase集群，要修改3个文件（首先zk集群已经安装好了）3.1修改hbase-env.shexport JAVA_HOME=/usr/java/jdk1.6.0_45

2014-03-30 18:45:40 643

原创 Shuffle执行过程分析

Shuffle执行过程Map端：1．每个输入分片会让一个map任务来处理，默认情况下，以HDFS的一个块的大小（默认为64M）为一个分片，当然我们也可以设置块的大小。map输出的结果会暂且放在一个环形内存缓冲区中（该缓冲区的大小默认为100M，由io.sort.mb属性控制），当该缓冲区快要溢出时（默认为缓冲区大小的80%，由io.sort.spill.percent属性控制），会在本

2014-03-30 18:26:13 835

原创 MapReduce作业运行流程

一.MapReduce作业运行流程根据源码分析作业的提交流程时序图如下MR的作业流程图：1.在客户端启动一个作业。2.通过JobClient向JobTracker请求一个Job ID和资源文件存放路径。3.将运行作业所需要的资源文件复制到HDFS上，包括MapReduce程序打包的JAR文件、配置文件和客户端计算所得的输入划分信息(通

2014-03-30 18:18:45 1620

转载 Java NIO原理图文分析

一．java NIO 和阻塞I/O的区别 1. 阻塞I/O通信模型 2. java NIO原理及通信模型二．java NIO服务端和客户端代码实现具体分析：一．java NIO 和阻塞I/O的区别 1. 阻塞I/O通信模型假如现在你对阻塞I/O已有了一定了解，我们知道阻塞I/O在调用InputStream.read()方法时是阻塞的

2014-03-19 10:34:47 1115

转载协同过滤推荐算法

原始博客地址：http://blog.sina.com.cn/s/blog_73de143c010153vp.html协同过滤是一种基于一组兴趣相同的用户或项目进行的推荐，它根据邻居用户(与目标用户兴趣相似的用户)的偏好信息产生对目标用户的推荐列表。协同过滤算法主要分为基于用户的协同过滤算法和基于项目的协同过滤算法。基于用户的(User based)协同过滤算法是根据邻居用户的偏好信息产

2014-03-13 09:31:49 1215

原创 Linux常用命令

1.vi的日常用法打开test.txt文件并编辑：vi test.txt，vi打开文件状态：1）只读 2）可编辑 3）命令。在只读状态下按下按键a或i进入编辑状态，退出编辑状态按ESC，使用组合键shift + :进入命令状态 wq保存退出。如果不是正常退出，采用强行关闭的方式会在同一目录下产生缓存文件例 .test.swp的文件，当在打开test.txt文件时会提示报错，要采用

2014-03-13 00:54:56 458

转载 erlang lists模块函数使用大全

一，带函数Pred1, all(Pred, List) -> boolean()如果List中的每个元素作为Pred函数的参数执行，结果都返回true，那么all函数返回true，否则返回false例子：lists:all(fun(E) -> true end,[1,2,3,4]).结果true2, any(Pred, List) -> bo

2013-07-28 10:47:00 841

转载 Python的易混地带

Python的易混地带每门编程语言都有易混淆的部分，下面列举出一些Python的易混淆知识点。＝＝和 is 的区别在Python中,”==” 操作符测试值的相等性； “is”表达式测试对象的一致性，即是否指向同一个对象。list1 = [1,('a',3)]list2 = [1,('a',3)]list1 == list2, lis

2013-07-14 16:36:14 669

转载 jsp向后台传中文，tomcat和weblogic下中文乱码解决方法

前端jsp:GBK编码 var groupsName = "全体组"; window.location.href="http://archive.cnblogs.com/a/2192992/skillGroups="+groupsName;后台:GBK编码 String groupsName = request.getParameter

2013-02-03 16:21:10 798

转载 webservice简单详细的实现方法

首先一定要下载包到 http://ws.Apache.org/axis/网站下载Axis安装包.然后最重要的就写wsdd 文件，好多例子都说先写deploy.wsdd文件，如下：http://xml.apache.org/axis/wsdd/" xmlns:java="" target="_blank">http://xml.apache.org/axis/wsdd/providers/j

2012-11-09 14:44:29 787

程序员成长之路