- 博客(29)
- 资源 (1)
- 收藏
- 关注
![](https://csdnimg.cn/release/blogv2/dist/pc/img/listFixedTop.png)
原创 菜鸟部署测试spark
废话少说直接 部署方案,为了便于测试我将采用local的模式 master -> hadoop00 worker -> hadoop00 cd conf目录下配置spark-env.sh,添加如下配置项 export SPARK_MASTER_IP=hadoop00 export SPARK_WORKER_CORES=1 export SPARK_WORKER_INSTANCES=1
2014-07-05 12:00:10
786
![](https://csdnimg.cn/release/blogv2/dist/pc/img/listFixedTop.png)
原创 Hive总结
hvive总结: 简介: Hive是建立在 Hadoop 上的数据仓库基础构架。它提供了一系列的工具,可以用来进行数据提取转化加载(ETL),这是一种可以存储、查询和分析存储在 Hadoop 中的大规模数据的机制。Hive 定义了简单的类 SQL 查询语言,称为 HQL,它允许熟悉 SQL 的用户查询数据。同时,这个语言也允许熟悉MapReduce 开发者的开发 自定义的 mapp
2014-04-06 19:07:23
753
![](https://csdnimg.cn/release/blogv2/dist/pc/img/listFixedTop.png)
原创 hadoop集群搭建
1.配置Linux环境 1.1选择Host-only方式 1.2修改Linux的IP vim /etc/sysconfig/network-scripts/ifcfg-eth0 文件内容如下 DEVICE="eth0" BOOTPROTO="static" #设置IP属性为静态 HWADDR="00:0C:29:3C:BF:E7" IPV6INIT="ye
2014-03-30 18:38:15
522
原创 低版本升级到hadoop2
HDFS升级,是hadoop集群升级到2.0的关键,而hdfs升级,最重要的是namenode的升级。 首先声明:在 HA 模式下,namenode是不能升级的! 2013-10-25 16:28:24,669 FATAL org.apache.hadoop.hdfs.server.namenode.NameNode: Exception in namenode join org.apach
2014-05-28 10:07:07
1493
2
原创 Hadoop生态圈开源项目总结
一.Hadoop总结 1.HDFS shell 1.0查看帮助 hadoop fs -help 1.1上传 hadoop fs -put 1.2查看文件内容 hadoop fs -cat 1.3查看文件列表 hadoop fs -ls / 1.4下载文件 hadoop fs -get 1.5删除文件 hadoop fs -rmr 1.6创建文件夹 had
2014-04-07 21:29:54
830
原创 Hadoop生态圈常用命令
Hadoop生态圈常用命令 1.格式化HDFS hadoop namenode -format 2.启动start-all.sh start-dfs.sh start-mapred.sh 3.ssh免登陆 在root的.ssh文件夹中执行ssh-keygen -t rsa 拷贝到目标节点:ssh-copy-id -i 192.168.35.101 4.MapRedece执行jar
2014-04-07 21:28:56
624
原创 Flume-ng分布式部署和配置
Flume-ng分布式部署总结 1.日志总接收端的配置(负责接收各个节点发送过来的日志数据),修改flume的安装目录下/conf/flume-conf.properties配置文件(默认没有,cp flumeconf.properties.template flume-conf.properties) agent.sources = avrosrc agent.channels = m
2014-04-07 15:35:51
2547
1
原创 JVM调优
个人在平时工作中总结了几条关于JVM调优的方法如下: 1.栈内存Stack特点空间比较小,速度快,用来存放对象的引用及程序中的基本类型,堆内存Heap的特点空间比较大,速度慢,一般对象都在这里生成、使用和消亡。 栈空间是有线程开辟的,线程结束栈空间由JVM回收,当程序运行所需超过栈内存的容量时会报StackOverflowError错误,通过java -Xss设置栈内存的大小,堆内存的大小不
2014-04-02 17:17:08
590
转载 基于线程安全的单例
基于线程安全的单例: public final class EagerSingleton { private static EagerSingleton singObj = new EagerSingleton(); private EagerSingleton(){ } public static EagerSing
2014-04-02 16:04:35
538
转载 HBase RowKey设计原则
本文引自淘宝技术部文章:http://rdc.taobao.org/?p=457 建议使用String如果不是特殊要求,RowKey最好都是String。 方便线上使用Shell查数据、排查错误 更容易让数据均匀分布 不必考虑存储成本 RowKey的长度尽量短如果RowKey太长话,第一是,存储开销会增加,影响存储效率;第二是,内存中Rowkey字段过长,内存的利用率
2014-04-02 10:17:29
2606
1
原创 storm详解一
Topology结构图如下: 1.Topology的启动和关闭 1)启动Topology: 将编辑好的jar文件拷到一个文件目录下,如/cloud/storm/jar storm jar /cloud/storm/jar/demo.jar org.me.MyTopology arg1 arg2arg3 其中,demo.jar是包含Topology实现代码的jar包,org.me.
2014-03-31 21:11:22
658
原创 Storm安装配置
1.编译安装ZMQ: tar -xzf zeromq-2.1.7.tar.gz cd zeromq-2.1.7 ./configure #编译可能会出错:configure:error: Unable to find a working C++ compiler #安装一下依赖的rpm包:libstdc++-develgcc-c++ 可以上网的情况下: yum install gc
2014-03-31 14:07:26
818
原创 Hadoop优化总结
经过一年多对hadoop的学习和使用对hadoop的优化做了一下总结,如下: 1.开启带外心跳 带外心跳不同于常规心跳(集群规模小于300,1.x以后的时间间隔为0.3秒),他是任务运行结束或者任务运行失败时触发的,能够在出现空闲资源时第一时间通知JobTracker, 以便它能够迅速为空闲资源分配新的任务。 mapreduce.tasktracker.outofband.heartb
2014-03-31 13:52:04
1069
原创 Flume安装使用
Flume官方提供Flume的原理图 Flume安装 1.将Flume解压到/cloud目录下 tar -zxvf apache-flume-1.4.0-bin.tar.gz -C /cloud 2.配置文件 手动编写一个配置文件(a3.conf)格式如下 #定义agent名, source、channel、sink的名称 a3.sources = r1 a3.channe
2014-03-30 19:17:14
709
原创 Hive安装和使用
Hive只在一个节点上安装即可 1.上传tar包 2.解压 tar -zxvf hive-0.9.0.tar.gz -C /cloud/ 配置HIVE_HOME环境变量 3.将hive的metastore设置为mysql (切换到root用户) 配置hive cp hive-default.xml.template hive-site.xml 修改hive-site.x
2014-03-30 19:05:18
581
原创 MapReduce实现倒排序索引
import java.io.IOException; import java.util.StringTokenizer; import org.apache.hadoop.conf.Configuration; import org.apache.hadoop.fs.Path; import org.apache.hadoop.io.Text; import
2014-03-30 18:57:30
676
原创 Linux安装MySQL数据库
1、准备安装程序(官方网站下载) 服务端:MySQL-server-community-5.1.44-1.rhel4.i386.rpm 客户端:MySQL-client-community-5.1.44-1.rhel4.i386.rpm 2、安装(打印信息略) [root@localhost /]#rpm -ivh MySQL-server-community-5.1.44-1.rhel4
2014-03-30 18:48:49
439
原创 Hbase集群搭建
hbase适合场景:存储大量数据、表关系不高,实时写入快速读取 1.上传hbase安装包 2.解压 tar -zxvf hbase-0.94.7-security.tar.gz -C /cloud 3.配置hbase集群,要修改3个文件(首先zk集群已经安装好了) 3.1修改hbase-env.sh export JAVA_HOME=/usr/java/jdk1.6.0_45
2014-03-30 18:45:40
588
原创 Shuffle执行过程分析
Shuffle执行过程 Map端: 1.每个输入分片会让一个map任务来处理,默认情况下,以HDFS的一个块的大小(默认为64M)为一个分片,当然我们也可以设置块的大小。map输出的结果会暂且放在一个环形内存缓冲区中(该缓冲区的大小默认为100M,由io.sort.mb属性控制),当该缓冲区快要溢出时(默认为缓冲区大小的80%,由io.sort.spill.percent属性控制),会在本
2014-03-30 18:26:13
750
原创 MapReduce作业运行流程
一.MapReduce作业运行流程 根据源码分析作业的提交流程时序图如下 MR的作业流程图: 1.在客户端启动一个作业。 2.通过JobClient向JobTracker请求一个Job ID和资源文件存放路径。 3.将运行作业所需要的资源文件复制到HDFS上,包括MapReduce程序打包的JAR文件、配置文件和客户端计算所得的输入划分信息(通
2014-03-30 18:18:45
1513
转载 Java NIO原理图文分析
一.java NIO 和阻塞I/O的区别 1. 阻塞I/O通信模型 2. java NIO原理及通信模型 二.java NIO服务端和客户端代码实现 具体分析: 一.java NIO 和阻塞I/O的区别 1. 阻塞I/O通信模型 假如现在你对阻塞I/O已有了一定了解,我们知道阻塞I/O在调用InputStream.read()方法时是阻塞的
2014-03-19 10:34:47
821
转载 协同过滤推荐算法
原始博客地址:http://blog.sina.com.cn/s/blog_73de143c010153vp.html 协同过滤是一种基于一组兴趣相同的用户或项目进行的推荐,它根据邻居用户(与目标用户兴趣相似的用户)的偏好信息产生对目标用户的推荐列表。协同过滤算法主要分为基于用户的协同过滤算法和基于项目的协同过滤算法。 基于用户的(User based)协同过滤算法是根据邻居用户的偏好信息产
2014-03-13 09:31:49
1117
原创 Linux常用命令
1.vi的日常用法 打开test.txt文件并编辑:vi test.txt,vi打开文件状态:1)只读 2)可编辑 3)命令。 在只读状态下按下按键a或i进入编辑状态,退出编辑状态按ESC,使用组合键shift + : 进入命令状态 wq保存退出。 如果不是正常退出,采用强行关闭的方式会在同一目录下产生缓存文件例 .test.swp的文件,当在打开test.txt文件时会提示报错,要采用
2014-03-13 00:54:56
414
转载 erlang lists模块函数使用大全
一,带函数Pred 1, all(Pred, List) -> boolean() 如果List中的每个元素作为Pred函数的参数执行,结果都返回true,那么all函数返回true, 否则返回false 例子: lists:all(fun(E) -> true end,[1,2,3,4]). 结果 true 2, any(Pred, List) -> bo
2013-07-28 10:47:00
792
转载 Python的易混地带
Python的易混地带 每门编程语言都有易混淆的部分,下面列举出一些Python的易混淆知识点。 == 和 is 的区别 在Python中,”==” 操作符测试值的相等性; “is”表达式测试对象的一致性,即是否指向同一个对象。 list1 = [1,('a',3)] list2 = [1,('a',3)] list1 == list2, lis
2013-07-14 16:36:14
608
转载 jsp向后台传中文,tomcat和weblogic下中文乱码解决方法
前端jsp:GBK编码 var groupsName = "全体组"; window.location.href="http://archive.cnblogs.com/a/2192992/skillGroups="+groupsName; 后台:GBK编码 String groupsName = request.getParameter
2013-02-03 16:21:10
715
转载 webservice简单详细的实现方法
首先一定要下载包到 http://ws.Apache.org/axis/网站下载Axis安装包. 然后最重要的就写wsdd 文件,好多例子都说先写deploy.wsdd文件,如下: http://xml.apache.org/axis/wsdd/" xmlns:java="" target="_blank">http://xml.apache.org/axis/wsdd/providers/j
2012-11-09 14:44:29
649
1
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人