大数据
lovemelovemycode
大家好,我是王茂军,来自北京中关村的一名程序员。希望和大家一起交流、一起成长。我关注的东东:linux\JAVA\Hadoop\scala\spark.为大数据在气象领域的落地贡献自己的力量。
展开
-
CDH功能简介
CDH:一个对Apache Hadoop的集成环境的封装,可以使用Cloudera Manager进行自动化安装。CDH有企业版和免费版,下面介绍一下免费版可以使用的功能:1 可以使用的组件 HDFS ,MapReduce,Hive,hue,impala,oozie,sqoop,zookeeper,hbase2 集群管理可以使用的功能 节点的启动、停止、添加;可以创建管原创 2013-08-20 22:29:53 · 3484 阅读 · 0 评论 -
spark RDD countApproxDistinct
package com.latrobe.sparkimport org.apache.spark.{SparkConf, SparkContext}/** * Created by spark on 15-1-18. * countApproxDistinct : RDD的一个方法,作用是对RDD集合内容进行去重统计。 * 该统计是一个大约的统计,参数relativeSD控制统计的精原创 2015-01-18 14:24:11 · 2629 阅读 · 0 评论 -
Spark PairRDDFunctions flatMapValues
package com.latrobe.sparkimport org.apache.spark.{SparkContext, SparkConf}/** * Created by spark on 15-1-18. */object FlatMapValues { def main(args: Array[String]) { val conf = new SparkC原创 2015-01-18 22:22:59 · 2490 阅读 · 0 评论 -
spark rdd countByValue
package com.latrobe.sparkimport org.apache.spark.{SparkContext, SparkConf}/** * Created by spark on 15-1-18. * 统计出集合中每个元素的个数 */object CountByValue { def main(args: Array[String]) { val c原创 2015-01-18 14:45:24 · 5077 阅读 · 0 评论 -
spark foldByKey
package com.latrobe.sparkimport org.apache.spark.{SparkContext, SparkConf}/** * Created by spark on 15-1-18. */object FoldByKey { def main(args: Array[String]) { val conf = new SparkConf(原创 2015-01-18 22:58:51 · 2625 阅读 · 0 评论 -
spark rddToPairRDDFunctions countByKey
package com.latrobe.sparkimport org.apache.spark.{SparkContext, SparkConf}/** * Created by spark on 15-1-18. * 计算出每个key对应的value的数量 */object CountByKey { def main(args: Array[String]) { v原创 2015-01-18 14:41:28 · 2165 阅读 · 0 评论 -
spark sortByKey subtractByKey take takeOrdered等函数使用例子
package com.latrobe.sparkimport org.apache.spark.{SparkContext, SparkConf}/** * Created by spark on 15-1-19. * 根据key对K-V类型的RDD进行排序获得新的RDD */object SortByKey { def main(args: Array[String]) {原创 2015-01-20 22:48:32 · 3397 阅读 · 0 评论 -
Spark优化
Spark 优化· 数据序列化· 内存优化o 确定内存使用o 调整数据结构o 序列化的RDD存储o 垃圾回收调整· 其它注意事项o 并行粒度o Reduce任务内存使用o 广播大的变量o 数据本地性· 总结基于内存的计算(当然也可以用磁盘)是Spark的一个重翻译 2015-02-10 11:13:07 · 1614 阅读 · 0 评论 -
CDH5.2.0升级到CDH5.3.3
公司有一个Spark on Yarn集群,基于CM5.2.0+CDH5.2.0搭建,Spark的版本是1.1.0.为了使用Spark1.2.0的一些特性,决定将集群版本升级到CM5.3.3+CDH5.3.3。之所以升级CM,是因为CM的版本号必须大于等于CDH的版本号。下面分成两个步骤介绍升级过程:CM升级和CDH升级。1 CM升级过程介绍 1.1 admin用户登陆http://1原创 2015-04-15 11:31:45 · 1566 阅读 · 0 评论 -
CDH5.2+CM5.2+impala2+Spark1.1 集群搭建基础环境准备
测试集群简介:一共有4台机器:10.10.244.136、10.10.244.137、10.10.244.138、10.10.244.139。10.10.244.136是管理节点,另外3台是存储节点。准备工作详情如下:1 在四台机器上安装CentOS release 6.5 (Final) 64位(管理节点需要安装Mysql\Postgresql\redhat_lsb)2 CDH5.2(原创 2014-11-03 10:02:43 · 1950 阅读 · 1 评论 -
flume配置参考
1 redis source,memory channel,json intercepter and file_roll sink配置例子agent.sources = redis redis1agent.channels = memoryagent.sinks = fileSinkagent.sources.redis.type = com.flumeng.plugins原创 2015-06-17 11:48:11 · 1328 阅读 · 0 评论 -
sqoop使用例子
简介: sqoop是工具,一个可以把ORACLE、MYSQL中的数据导入到HDFS、HIVE、HBASE中(反过来也可以)的工具。下面是一些使用的例子。留下做个参考:#从Mysql中抽取数据到HDFS.问题:文件太多,全他妈是小文件;目标目录如果已经存在会报错sqoop import --connect jdbc:mysql://10.10.244.137/test --username原创 2014-11-08 13:25:39 · 2131 阅读 · 0 评论 -
spark on yarn 执行过程介绍
执行语句:sudo spark-submit --master yarn--driver-memory 7G --executor-memory 5G --executor-cores 24 --num-executors 4--class spark.init.InitSpark /home/hxf/gogo.jar>/home/hxf/dddd.txt2>&1;执行过程:原创 2015-02-02 10:34:28 · 1674 阅读 · 0 评论 -
InfoSphere BigInsights 安装部署
InfoSphere BigInsights 有三个版本:基础版、企业体验版、企业版。基础版是免费的,但是少了一些功能;企业体验版是在购买企业版之前又来体验测试的;如果要部署企业版,应该购买企业版。安装部署的基本过程:下载安装包(安装包中有个README.txt,里面有两个网址,一个是环境要求,一个安装过程)、准备部署环境、部署。这里针对basic版2.1的安装进行介绍:1 下载安装包ii原创 2013-08-20 14:26:38 · 3459 阅读 · 5 评论 -
实时数据采集传输软件LDM安装
1 LDM安装1.1 wget ftp://ftp.unidata.ucar.edu/pub/ldm/ldm-6.11.6.tar.gz1.2gunzip -c ldm-6.11.6.tar.gz | pax -r '-s:/:/src/:'1.3cd ldm-6.11.6/src/1.4 ./configure --prefix=/usr/local/ldm原创 2013-10-16 08:39:41 · 3809 阅读 · 0 评论 -
实时数据采集传输软件LDM运行
LDM安装、配置完成之后,下面来运行它。我们把ldm安装在了/home/ldm。1 cd /home/ldm;ls -lh;查看软链接。如果软链接不能用rm runtime;ln -s ldm-6.11.6 runtime。2 bin/ldmadmin mkqueue -f 快速创建队列3 bin/ldmadmin start 启动LDM4 bin/ldmadmin watch 启原创 2013-10-29 12:24:38 · 4392 阅读 · 0 评论 -
实时数据采集传输软件LDM配置
本环境一共两个机器:cma.ldm87.gov.cn(hostname)机器作为upstream LDM,cma.ldm84.gov.cn(hostname)机器作为downstream LDM。下面分享一下这两个LDM的配置1 upstream LDM的配置 1.1 ldmd.conf 配置重点 Exec Entries 当使用bin/ldmadmin 命令原创 2013-10-29 11:36:21 · 3747 阅读 · 0 评论 -
实时数据采集传输软件LDM QA
1 bin/pqmon 打印信息是什么意思 Oct 30 02:29:17 pqmon NOTE: nprods nfree nempty nbytes maxprods maxfree minempty maxext age Oct 30 02:29:17 pqmon NOTE: 3 1原创 2013-10-30 14:06:04 · 1744 阅读 · 0 评论 -
CDH本地安装教程
总体思路:在机器A上安装CM4.7.3(在线安装,本地安装都可)===》准备本地YUM源(http://archive.cloudera.com/cdh4/redhat/6/x86_64/cdh/4/中所有代码)===》配置CM引用本地的YUM源===》通过CM安装CDH4.3.2原创 2013-11-12 17:10:21 · 1469 阅读 · 0 评论 -
YARN架构简介
MapReduce has undergone a complete overhaul in hadoop-0.23 and we now have, what we call, MapReduce 2.0 (MRv2) or YARN.The fundamental idea of MRv2 is to split up the two major functionalities of th原创 2014-11-03 23:28:10 · 1159 阅读 · 0 评论 -
Spark RDD与共享变量简介
hadoop有两个东东:HDFS(存储)和MapReduce(计算)。MapReduce计算比较慢,于是Spark(速度是MR的10~100倍)出现了。Spark有两个核心的概念:弹性分布式数据集RDD与共享变量。下面进行一下简单的介绍。弹性分布式数据集(RDD)获得方式:1并行化驱动程序内的集合; 2从外部数据集加载。1 并行化驱动程序内的集合code demoval d原创 2014-11-20 10:58:21 · 2649 阅读 · 0 评论 -
Zookeeper CURD的一个例子,简单记忆
// 创建一个与服务器的连接 需要(服务端的 ip+端口号)(session过期时间)(Watcher监听注册) ZooKeeper zk = null; try { zk = new ZooKeeper("192.168.30.110:2181", 3000, new Watcher() { pu原创 2015-09-14 16:24:49 · 828 阅读 · 0 评论