- 博客(29)
- 资源 (1)
- 收藏
- 关注
原创 菜鸟部署测试spark
废话少说直接部署方案,为了便于测试我将采用local的模式master -> hadoop00worker -> hadoop00cd conf目录下配置spark-env.sh,添加如下配置项export SPARK_MASTER_IP=hadoop00export SPARK_WORKER_CORES=1export SPARK_WORKER_INSTANCES=1
2014-07-05 12:00:10 813
原创 Hive总结
hvive总结:简介: Hive是建立在 Hadoop 上的数据仓库基础构架。它提供了一系列的工具,可以用来进行数据提取转化加载(ETL),这是一种可以存储、查询和分析存储在 Hadoop中的大规模数据的机制。Hive 定义了简单的类 SQL 查询语言,称为 HQL,它允许熟悉 SQL 的用户查询数据。同时,这个语言也允许熟悉MapReduce 开发者的开发自定义的 mapp
2014-04-06 19:07:23 843
原创 hadoop集群搭建
1.配置Linux环境1.1选择Host-only方式1.2修改Linux的IPvim /etc/sysconfig/network-scripts/ifcfg-eth0文件内容如下DEVICE="eth0"BOOTPROTO="static" #设置IP属性为静态HWADDR="00:0C:29:3C:BF:E7"IPV6INIT="ye
2014-03-30 18:38:15 532
原创 低版本升级到hadoop2
HDFS升级,是hadoop集群升级到2.0的关键,而hdfs升级,最重要的是namenode的升级。首先声明:在 HA 模式下,namenode是不能升级的!2013-10-25 16:28:24,669 FATAL org.apache.hadoop.hdfs.server.namenode.NameNode: Exception in namenode joinorg.apach
2014-05-28 10:07:07 1537 2
原创 Hadoop生态圈开源项目总结
一.Hadoop总结1.HDFS shell1.0查看帮助hadoop fs -help 1.1上传hadoop fs -put 1.2查看文件内容hadoop fs -cat 1.3查看文件列表hadoop fs -ls /1.4下载文件hadoop fs -get 1.5删除文件hadoop fs -rmr 1.6创建文件夹had
2014-04-07 21:29:54 864
原创 Hadoop生态圈常用命令
Hadoop生态圈常用命令1.格式化HDFShadoop namenode -format2.启动start-all.shstart-dfs.shstart-mapred.sh3.ssh免登陆在root的.ssh文件夹中执行ssh-keygen -t rsa拷贝到目标节点:ssh-copy-id -i 192.168.35.1014.MapRedece执行jar
2014-04-07 21:28:56 630
原创 Flume-ng分布式部署和配置
Flume-ng分布式部署总结1.日志总接收端的配置(负责接收各个节点发送过来的日志数据),修改flume的安装目录下/conf/flume-conf.properties配置文件(默认没有,cp flumeconf.properties.template flume-conf.properties)agent.sources = avrosrc agent.channels = m
2014-04-07 15:35:51 2597 1
原创 JVM调优
个人在平时工作中总结了几条关于JVM调优的方法如下:1.栈内存Stack特点空间比较小,速度快,用来存放对象的引用及程序中的基本类型,堆内存Heap的特点空间比较大,速度慢,一般对象都在这里生成、使用和消亡。 栈空间是有线程开辟的,线程结束栈空间由JVM回收,当程序运行所需超过栈内存的容量时会报StackOverflowError错误,通过java -Xss设置栈内存的大小,堆内存的大小不
2014-04-02 17:17:08 595
转载 基于线程安全的单例
基于线程安全的单例:public final class EagerSingleton { private static EagerSingleton singObj = new EagerSingleton(); private EagerSingleton(){ } public static EagerSing
2014-04-02 16:04:35 546
转载 HBase RowKey设计原则
本文引自淘宝技术部文章:http://rdc.taobao.org/?p=457建议使用String如果不是特殊要求,RowKey最好都是String。方便线上使用Shell查数据、排查错误更容易让数据均匀分布不必考虑存储成本RowKey的长度尽量短如果RowKey太长话,第一是,存储开销会增加,影响存储效率;第二是,内存中Rowkey字段过长,内存的利用率
2014-04-02 10:17:29 2654 1
原创 storm详解一
Topology结构图如下:1.Topology的启动和关闭1)启动Topology:将编辑好的jar文件拷到一个文件目录下,如/cloud/storm/jarstorm jar /cloud/storm/jar/demo.jar org.me.MyTopology arg1 arg2arg3其中,demo.jar是包含Topology实现代码的jar包,org.me.
2014-03-31 21:11:22 670
原创 Storm安装配置
1.编译安装ZMQ:tar -xzf zeromq-2.1.7.tar.gzcd zeromq-2.1.7./configure#编译可能会出错:configure:error: Unable to find a working C++ compiler#安装一下依赖的rpm包:libstdc++-develgcc-c++ 可以上网的情况下:yum install gc
2014-03-31 14:07:26 841
原创 Hadoop优化总结
经过一年多对hadoop的学习和使用对hadoop的优化做了一下总结,如下:1.开启带外心跳带外心跳不同于常规心跳(集群规模小于300,1.x以后的时间间隔为0.3秒),他是任务运行结束或者任务运行失败时触发的,能够在出现空闲资源时第一时间通知JobTracker,以便它能够迅速为空闲资源分配新的任务。mapreduce.tasktracker.outofband.heartb
2014-03-31 13:52:04 1095
原创 Flume安装使用
Flume官方提供Flume的原理图Flume安装1.将Flume解压到/cloud目录下tar -zxvf apache-flume-1.4.0-bin.tar.gz -C /cloud2.配置文件手动编写一个配置文件(a3.conf)格式如下#定义agent名, source、channel、sink的名称a3.sources = r1a3.channe
2014-03-30 19:17:14 741
原创 Hive安装和使用
Hive只在一个节点上安装即可1.上传tar包2.解压tar -zxvf hive-0.9.0.tar.gz -C /cloud/配置HIVE_HOME环境变量3.将hive的metastore设置为mysql (切换到root用户) 配置hivecp hive-default.xml.template hive-site.xml 修改hive-site.x
2014-03-30 19:05:18 588
原创 MapReduce实现倒排序索引
import java.io.IOException; import java.util.StringTokenizer; import org.apache.hadoop.conf.Configuration; import org.apache.hadoop.fs.Path; import org.apache.hadoop.io.Text; import
2014-03-30 18:57:30 684
原创 Linux安装MySQL数据库
1、准备安装程序(官方网站下载)服务端:MySQL-server-community-5.1.44-1.rhel4.i386.rpm客户端:MySQL-client-community-5.1.44-1.rhel4.i386.rpm2、安装(打印信息略)[root@localhost /]#rpm -ivh MySQL-server-community-5.1.44-1.rhel4
2014-03-30 18:48:49 446
原创 Hbase集群搭建
hbase适合场景:存储大量数据、表关系不高,实时写入快速读取1.上传hbase安装包2.解压 tar -zxvf hbase-0.94.7-security.tar.gz -C /cloud3.配置hbase集群,要修改3个文件(首先zk集群已经安装好了)3.1修改hbase-env.shexport JAVA_HOME=/usr/java/jdk1.6.0_45
2014-03-30 18:45:40 596
原创 Shuffle执行过程分析
Shuffle执行过程Map端:1.每个输入分片会让一个map任务来处理,默认情况下,以HDFS的一个块的大小(默认为64M)为一个分片,当然我们也可以设置块的大小。map输出的结果会暂且放在一个环形内存缓冲区中(该缓冲区的大小默认为100M,由io.sort.mb属性控制),当该缓冲区快要溢出时(默认为缓冲区大小的80%,由io.sort.spill.percent属性控制),会在本
2014-03-30 18:26:13 757
原创 MapReduce作业运行流程
一.MapReduce作业运行流程 根据源码分析作业的提交流程时序图如下MR的作业流程图:1.在客户端启动一个作业。2.通过JobClient向JobTracker请求一个Job ID和资源文件存放路径。3.将运行作业所需要的资源文件复制到HDFS上,包括MapReduce程序打包的JAR文件、配置文件和客户端计算所得的输入划分信息(通
2014-03-30 18:18:45 1542
转载 Java NIO原理图文分析
一.java NIO 和阻塞I/O的区别 1. 阻塞I/O通信模型 2. java NIO原理及通信模型二.java NIO服务端和客户端代码实现 具体分析: 一.java NIO 和阻塞I/O的区别 1. 阻塞I/O通信模型 假如现在你对阻塞I/O已有了一定了解,我们知道阻塞I/O在调用InputStream.read()方法时是阻塞的
2014-03-19 10:34:47 844
转载 协同过滤推荐算法
原始博客地址:http://blog.sina.com.cn/s/blog_73de143c010153vp.html协同过滤是一种基于一组兴趣相同的用户或项目进行的推荐,它根据邻居用户(与目标用户兴趣相似的用户)的偏好信息产生对目标用户的推荐列表。协同过滤算法主要分为基于用户的协同过滤算法和基于项目的协同过滤算法。 基于用户的(User based)协同过滤算法是根据邻居用户的偏好信息产
2014-03-13 09:31:49 1122
原创 Linux常用命令
1.vi的日常用法打开test.txt文件并编辑:vi test.txt,vi打开文件状态:1)只读 2)可编辑 3)命令。在只读状态下按下按键a或i进入编辑状态,退出编辑状态按ESC,使用组合键shift + :进入命令状态 wq保存退出。如果不是正常退出,采用强行关闭的方式会在同一目录下产生缓存文件例 .test.swp的文件,当在打开test.txt文件时会提示报错,要采用
2014-03-13 00:54:56 423
转载 erlang lists模块函数使用大全
一,带函数Pred1, all(Pred, List) -> boolean()如果List中的每个元素作为Pred函数的参数执行,结果都返回true,那么all函数返回true,否则返回false例子:lists:all(fun(E) -> true end,[1,2,3,4]).结果true2, any(Pred, List) -> bo
2013-07-28 10:47:00 796
转载 Python的易混地带
Python的易混地带 每门编程语言都有易混淆的部分,下面列举出一些Python的易混淆知识点。== 和 is 的区别在Python中,”==” 操作符测试值的相等性; “is”表达式测试对象的一致性,即是否指向同一个对象。list1 = [1,('a',3)]list2 = [1,('a',3)]list1 == list2, lis
2013-07-14 16:36:14 616
转载 jsp向后台传中文,tomcat和weblogic下中文乱码解决方法
前端jsp:GBK编码 var groupsName = "全体组"; window.location.href="http://archive.cnblogs.com/a/2192992/skillGroups="+groupsName;后台:GBK编码 String groupsName = request.getParameter
2013-02-03 16:21:10 741
转载 webservice简单详细的实现方法
首先一定要下载包到 http://ws.Apache.org/axis/网站下载Axis安装包.然后最重要的就写wsdd 文件,好多例子都说先写deploy.wsdd文件,如下:http://xml.apache.org/axis/wsdd/" xmlns:java="" target="_blank">http://xml.apache.org/axis/wsdd/providers/j
2012-11-09 14:44:29 700 1
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人