大数据
日拱一卒的Alex
一个乐观善良且温暖的人,认真对待生活中的每一天,成为更好的自己
展开
-
基于MapReduce的二次排序
排序就是首先按照第一字段排序,然后再对第一字段相同的行按照第二字段排序,注意不能破坏第一次排序的结果。 这里主要讲如何使用一个Mapreduce就可以实现二次排序。Hadoop有自带的SecondarySort程序,但这个程序只能对整数进行排序,所以我们需要对其进行改进,使其可以对任意字符串进行排序。下面会分别列出这两个程序的详解。原创 2017-08-24 20:22:39 · 400 阅读 · 0 评论 -
预备工作——数据处理流程
该项目是一个纯粹的数据分析项目,其整体流程基本上就是依据数据的处理流程进行,依此有以下几个大的步骤:1) 数据采集首先,通过页面嵌入JS代码的方式获取用户访问行为,并发送到web服务的后台记录日志然后,将各服务器上生成的点击流日志通过实时或批量的方式汇聚到HDFS文件系统中 当然,一个综合分析系统,数据源可能不仅包含点击流数据,还有数据库中的业务数据(如用户信息、商品信息、订单原创 2017-12-16 18:38:17 · 269 阅读 · 0 评论 -
Azkaban安装示例
1.准备工作Azkaban Web服务器azkaban-web-server-2.5.0.tar.gzAzkaban执行服务器 azkaban-executor-server-2.5.0.tar.gzAzkaban的sql脚本(注:在此之前机器上必先安装MySql)azkaban-sql-script-2.5.0.tar.gz将上述三个压缩包解压到当前用户目录。原创 2017-11-05 18:14:47 · 249 阅读 · 1 评论 -
flume的多agent连接
1.需求 将tail命令产生的信息在example01机器上用flume收集,并且将数据传到example02机器上,在example02机器上会将这些接收到的数据存储在hdfs集群上。2.实现1)example01机器上的tail-avro.conf文件a1.sources = r1a1.sinks = k1a1.channels = c1#原创 2017-09-21 18:46:45 · 2373 阅读 · 0 评论 -
基于MapReduce框架的K-means算法实现
基于mapreduce并行处理的K-means算法实现原创 2017-08-19 09:37:43 · 3474 阅读 · 1 评论 -
PageRank算法详解
转载自:http://www.cnblogs.com/fengfenggirl/p/pagerank-introduction.htmlPageRank对网页排名的算法,曾是Google发家致富的法宝。以前虽然有实验过,但理解还是不透彻,这几天又看了一下,这里总结一下PageRank算法的基本原理。一、什么是pagerank PageRank的Page可是认为是网页,转载 2017-08-25 21:34:58 · 723 阅读 · 0 评论 -
Hive实现累计报表查询
1.需求有如下访客访问次数的统计表 t_access访客 月份 访问次数A 2015-01 5A 2015-01 15B 2015-01 5A 2015-01 8B 2015-01 25A 2015-01 5A 2015-02 4A 2015-02 6B 2015-02 10B 2015-02 5…… …… ……要求输出每个客户在每个月的总访问次数,以及在当原创 2017-09-06 22:57:46 · 5405 阅读 · 2 评论 -
Hive疑难杂症
1.Unable to instantiate org.apache.hadoop.hive.ql.metadata.SessionHiveMetaStoreClientLogging initialized using configuration in jar:file:/home/hadoop/apps/hive/lib/hive-common-1.2.1.jar!/hive-log4j.原创 2017-08-28 21:49:19 · 583 阅读 · 0 评论 -
Hive安装步骤
1.官网下载HIVE的压缩包 https://hive.apache.org/2.解压 tar -zxvf apache-hive-1.2.1-bin.tar.gz -C ~/apps3.安装MySql (其目的是保存hive数据库与数据表的元信息,不是保存数据表中的数据) mysql安装仅供参考,不同版本mysql有各自的安装流程 rpm -qa | grep原创 2017-08-29 10:09:41 · 367 阅读 · 0 评论 -
MapReduce实现寻找共同好友
MapReduce实现寻找共同好友详解原创 2017-08-23 23:16:43 · 4984 阅读 · 3 评论 -
map端join算法实现
map端的表连接实现原创 2017-08-22 17:30:15 · 578 阅读 · 0 评论 -
MapReduce的疑难杂症
1.Java.net.SocketTimeoutException: 60000millis timeout while waiting for channel to be ready for read. ch若果排除代码纰漏,这就是电脑配置引起的问题,因为切片分的太多所以导致运行超时。应该用ConbineTextInputFormat规定每个任务读取文件的最低大小,从而减少切分数job.原创 2017-08-10 19:30:06 · 574 阅读 · 0 评论 -
开发模块1——数据采集
3 模块开发——数据采集3.1 需求数据采集的需求广义上来说分为两大部分。1)是在页面采集用户的访问行为,具体开发工作:1、开发页面埋点js,采集用户访问行为2、后台接受页面js请求记录日志此部分工作也可以归属为“数据源”,其开发工作通常由web开发团队负责 2)是从web服务器上汇聚日志到HDFS,是数据分析系统的数据采集,此部分工作由数据分析平台建设团队负责,具原创 2017-12-16 19:07:28 · 1576 阅读 · 1 评论