大数据
Cumu_
这个作者很懒,什么都没留下…
展开
-
hive版本wordcount
1. wordcount程序相当于hadoop MapReduce的一个helloworld程序吧,纯的MR代码如下: a.原创 2014-08-19 21:45:55 · 3349 阅读 · 0 评论 -
flume学习03-flume收集log4j日志
前几篇已经介绍了flume相关的知识,包括flume架构、如何配置启动以及暂停,接下去主要说说flume接受log4j日志。 前面介绍过了log4j需要用avro的方式讲日志传递到flume,所以我们的配置都是基于avro的sourcelog4j日志输出到flume的console修改配置文件log4j-agent.properties# distributed with this work原创 2015-02-13 17:18:58 · 8823 阅读 · 0 评论 -
flume学习02-flume安装配置启动
上一篇博客简单介绍了flume的一些基本概念和架构,更详细的内容可以去官网用户手册学习,这篇博客主要介绍如何安装配置flume,以及作个简单示例如何使用下载flumewget http://apache.dataguru.cn/flume/1.5.2/apache-flume-1.5.2-bin.tar.gztar -zxvf apache-flume-1.5.2-bin.tar.gzcp c原创 2015-02-12 10:43:46 · 5808 阅读 · 0 评论 -
Spark学习1-wordcount
闲扯好久没写博客了,大概有半年了,最近半年发生了不少事情,自己毕业两年了,本想跳槽离开的,但是貌似习惯了现在公司的工作习惯,其实是工资涨得还算满意,所以就留下了(说得好没追求啊~)。前段时间我们team的负责人跳槽走了,所有很多技术都需要自己钻研,其实也是一个蛋疼但是提高挺快的过程,最近利用工作之余的时间一直在研究spark,在公司申请了4台机器用CDH搭建了一个集群,包括了Spark,版本貌似是1原创 2015-09-09 15:55:18 · 1415 阅读 · 0 评论 -
spark学习7-mllib als推荐引擎学习
继续上一篇学习spark本次将介绍下如何利用mllib进行商品或者用户的推荐,具体用到的算法是ALS(交替二乘法)推荐算法介绍推荐算法可以分为:UserCF(基于用户的协同过滤)、ItemCF(基于商品的协同过滤)、ModelCF(基于模型的协同过滤),具体介绍见:http://blog.csdn.net/ygrx/article/details/15501679spark中的协同原创 2015-10-15 16:26:36 · 9858 阅读 · 1 评论 -
spark学习2-join
继续上一篇学习spark本次将介绍如何用spark进行join的操作,首先join是分map side join和reduce side join,下面将分别介绍下这2个操作在spark中如何进行map side join其实就是将较小的表放入到内存,利用spark的广播机制broadcast出去,这样就缓存在内存中,直接上代码 val conf = new SparkCon原创 2015-10-13 11:00:59 · 1712 阅读 · 0 评论 -
spark学习3-CountOnce
继续上一篇的学习spark本次将介绍下CountOnce,假设现在一个场景,有一堆数字,其中只有一个数据是出现一遍的,其他数据都出现两次,如何快速找到出现一次的数据算法利用异或的特性,异或具有交换率,偶数次出现的数字异或是0,奇数次出现的异或后就是本身,假设这堆数据比较庞大,用spark来查找是很方便的,代码如下:val conf = new SparkConf()原创 2015-10-13 14:11:42 · 1157 阅读 · 0 评论 -
spark学习4-倾斜数据join
继续上一篇学习spark本次将介绍join发生了数据倾斜之后的一种解决方法数据倾斜出现的原因并行计算中,我们总希望分配的每一个任务(task)都能以相似的粒度来切分,且完成时间相差不大。但是由于集群中的硬件和应用的类型不同、切分的数据大小不一,总会导致部分任务极大地拖慢了整个任务的完成时间,数据倾斜原因如下:1) 业务数据本身的特性。2) Key分布不均匀。3) 建表时考虑原创 2015-10-13 18:43:01 · 4486 阅读 · 0 评论 -
spark学习6-spark模拟hive的列转行和行转列
继续上一篇学习spark本次将通过一个实际场景来综合学习下spark如何实现hive中的列转行和行转列(关于hive的)列转行和行转列介绍见:http://blog.csdn.net/jthink_/article/details/38853573)问题描述假设我们有这样的交易记录,如下:@6259656412068037 @822039695680011 7230 366.0原创 2015-10-14 09:47:09 · 8125 阅读 · 0 评论 -
spark学习5-spark基础总结
继续上一篇学习spark本次将综合运用spark的基础知识来解决一个实际问题问题描述假设有这样的数据(很多),第一个字段表示id,第二个字段表示type(type 只有01和02),第三个字段表示月份(只有7月和8月)1 012015-072 01 2015-072 01 2015-072 02 2015-082 02 2015-083 02 2015-08原创 2015-10-13 20:06:30 · 1802 阅读 · 0 评论 -
CDH5.4.4基于yarn的公平调度器配置
公平调度器介绍简介 公平调度器是一种赋予作业(app)资源的方法,目的是让所有的作业随着时间的推移,都能获得平均的资源。hadoop NG有能力调度多种不同类型的资源(CPU cores、memory)。默认情况下,公平调度器只公平得调度作业memory的使用,但是通过配置我们可以调度memery和CPU。当第一个作业提交到集群上运行时,该作业使用集群的所有资源,这时候别的作业原创 2015-11-30 14:59:09 · 5150 阅读 · 4 评论 -
基于yarn的公平调度实例
场景描述 假设遇到这样的客户,需要在公司内部的集群上进行任务提交运行,客户的任务是每天跑取一些比较简单的mr程序(凌晨提交上来,需要在当天的6点之前运行结束),而公司内部自己需要用集群做相应的计算,计算主要是每个月的月初开始执行,一共100多个mr,大概需要执行半个月(前提是mr一个个得提交,资源利用率比较低下)。为了客户任务和公司内部自己的任务能够并行运行,同时确保在规定的时间内完原创 2015-12-01 17:19:57 · 4360 阅读 · 0 评论 -
hive udf写hbase
最近遇到新的需求,需要将hive脚本运行输出的结果存入hbase,故写出一个通用的hive udf来满足该需求,具体代码如下:import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.hbase.HBaseConfiguration;import org.apache.hadoop.hbase.TableN原创 2016-02-24 10:36:18 · 2625 阅读 · 3 评论 -
mongodb集群搭建-分片
分片介绍当存入mongo的数据很大的时候,我们需要选择将数据分片存放到不同的机器上。分片不同于副本集,副本集中主从存放的数据都一样,但是不同分片存放的数据是不同的,所有的分片组成了集群,存放着所有的数据。配置服务器配置服务器相当于集群的大脑,保存着集群和分片的元数据(个人理解和hbase的meta root表类似),即各分片包含哪些数据的信息configsvr.conf内容如下:d原创 2016-01-15 15:24:54 · 820 阅读 · 0 评论 -
memcached-安装
1. 最近公司需要换架构,其中涉及到缓存这块,在缓存选型上想比较下redis和memcached,所以就让我调研了下memcached2. 本博客从安装开始说起,之后持续更新关于memcached调研相关的知识3. memcached依赖于libevent,所以安装memcached前必须先安装libevent(它是安装memcached的唯一先决条件),具体的memcached的基础见:原创 2015-01-26 16:27:49 · 1920 阅读 · 0 评论 -
Hive 数据倾斜总结
本文转载自:http://blog.csdn.net/lovingprince/article/details/7264549几个比较特殊的点都提到了,大家可以作为参考。在做Shuffle阶段的优化过程中,遇到了数据倾斜的问题,造成了对一些情况下优化效果不明显。主要是因为在Job完成后的所得到的Counters是整个Job的总和,优化是基于这些Counters得转载 2014-10-21 11:35:52 · 1862 阅读 · 1 评论 -
hive-列转行和行转列
1. 假设我们在hive中有两张表,其中一张表是存用户原创 2014-08-26 21:27:51 · 88599 阅读 · 0 评论 -
hadoop+hive-完全分布式环境搭建
http://blog.csdn.net/jthink_/article/details/38622297http://blog.csdn.net/jthink_/article/details/38623585两个连起来原创 2014-08-17 00:19:32 · 5638 阅读 · 0 评论 -
hive中order by,sort by, distribute by, cluster by作用以及用法
1. order by Hive中的原创 2014-08-28 21:33:02 · 71226 阅读 · 6 评论 -
hive安装配置
1. hive是基于hdfs的一个数据仓库原创 2014-08-17 00:05:53 · 6131 阅读 · 4 评论 -
hadoop-分布式环境搭建
1. 准备四台机器,操作系统都是Ubuntu 12.04 LTS,j原创 2014-08-16 23:45:12 · 5300 阅读 · 1 评论 -
zookeeper安装
1. 首先下载zookeeper-3.4.5.tar.gz, 解压到/usr/local/bg文件夹下2.原创 2014-08-17 16:35:59 · 2660 阅读 · 0 评论 -
HBase全分布式环境搭建
1. 首先安装hbase之前必须要有原创 2014-08-17 16:56:25 · 2709 阅读 · 0 评论 -
hadoop+hive+zookeeper+hbase全分布式环境配置
1. hadoop: http://blog.csdn.net/jthink_/article/details/386222972. hive:原创 2014-08-17 17:01:13 · 7071 阅读 · 1 评论 -
hadoop+hbase全分布式环境配置
1. hadoop: http://blog.csdn.net/jthink_/article/details/386222972. hive: http://blog.csdn.net/jthink_/article/details/386235853. zookeeper: http://blog.csdn.net/jthink_/article/details/3863997原创 2014-08-17 17:02:43 · 1471 阅读 · 0 评论 -
MapReduce实现hive join操作
1. hive中join就是一条select语句,其个性原创 2014-10-30 16:08:02 · 4382 阅读 · 0 评论 -
Hadoop MapReduce做大数据排序
1. 我们知道mapreduce天生适合作排序,由于他有一个shuffer的过程,当数据量很少的时候我们可以把reduce的num设置成1来进行排序,但是如果数据量很大,在一个reduce上处理不过来或者处理时间太长,那么我们就需要重新考虑这个排序(需要设置多个reduce)2. 假设我们现在的数据是这样的,每个数字占一行,如:6156436515549347562原创 2014-10-31 17:48:57 · 4451 阅读 · 0 评论 -
Hive自定义UDF-RowNumber
1. hive0.10及之前的版本没有row_number这个函数,假设我们现在出现如下原创 2014-11-04 19:22:50 · 4065 阅读 · 0 评论 -
scala java+spring boot写spark程序骨架
介绍下scala如何配合spring boot框架进行项目开发,由于scala和java一样都是运行在jvm中的,所以和java一样,scala配合spring boot使用几乎和java一样,由于java和scala各有各的特性,处理的场景不同(比如scala天生适合集合的处理),所以有的时候还是需要用java来处理较为方便,所以该骨架中将java和scala一起进行混编,最终打成jar包提供部原创 2017-01-17 15:20:22 · 11059 阅读 · 0 评论