自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(8)
  • 收藏
  • 关注

转载 hive电商流量日志分析2--pv分析

第一步: 需求分析 1 2 3 4 需要哪些字段(时间:每一天,各个时段,id,url,guid,tracTime) 需要分区为天/时 PV(统计记录数) UV(guid去重)  第二步: 实施步骤 1 2 3 4 5 建Hive表,表列分隔符...

2018-12-30 20:39:39 420

转载 hive的row_number()、rank()和dense_rank()的区别以及具体使用

row_number()、rank()和dense_rank()这三个是hive内置的分析函数,下面我们来看看他们的区别和具体的使用案例。首先创建一个文件test:A,1B,3C,2D,3E,4F,5G,61234567然后创建hive表:create table test_rank(a string,b int) row format delimited fi...

2018-12-30 20:38:44 2412

原创 hive电商日志流量分析1--流程及flume数据采集及表结构建立

1. 网站点击流数据分析项目业务背景1.1 什么是点击流数据1.1.1 WEB访问日志  即指用户访问网站时的所有访问、浏览、点击行为数据。比如点击了哪一个链接,在哪个网页停留时间最多,采用了哪个搜索项、总体浏览时间等。而所有这些信息都可被保存在网站日志中。通过分析这些数据,可以获知许多对网站运营至关重要的信息。采集的数据越全面,分析就能越精准。 日志的生成渠道: 1)是网站的web服...

2018-12-30 20:23:55 1236

转载 yum源配置的三种方法

(一)yum源概述  yum需要一个yum库,也就是yum源。默认情况下,CentOS就有一个yum源。在/etc/yum.repos.d/目录下有一些默认的配置文件(可以将这些文件移到/opt下,或者直接在yum.repos.d/下重命名)。  首先要找一个yum库(源),然后确保本地有一个客户端(yum这个命令就是客户端),由yum程序去连接服务器。连接的方式是由配置文件决定的。通过编...

2018-12-17 19:27:56 592

转载 项目:YouToBe

三、项目原始数据youtube在此下载:https://pan.baidu.com/s/1we1KPA2IIEAGIJczyr2dMQ3.1、数据结构3.1.1、视频表 3.1.2、用户表 3.2 原始数据存放地HDFS 目录:视频数据集:/youtube/video/2008用户数据集:/youtube/users/20083.3、技术选型Hadoop...

2018-12-13 20:32:53 6609

原创 mapreduce卡67%

reduce过程的百分比与对应的处理如下: - 0~33%是shuffle的过程,数据从mapper已到了reducer - 33~67%是sort的过程,这个过程只会在mapper完成后才会执行 - 67~100%才是reducer程序执行的过程。如果reduce卡在了67%,那么说明reducer一个也没有执行。可能是输入数据太大,超过了限制,也可能是reducer有死循环的bug...

2018-12-13 12:05:32 787

原创 根据日期,转换成星座、生肖工具类

package com.ss.common.util; import java.text.ParseException;import java.text.SimpleDateFormat;import java.util.Calendar;import java.util.Date; /** * 根据日期,转换成星座、生肖工具类 *  * */public class Y...

2018-12-10 22:16:52 593

转载 hive 元数据解析

hive 元数据解析在使用Hive进行开发时,我们往往需要获得一个已存在hive表的建表语句(DDL),然而hive本身并没有提供这样一个工具。要想还原建表DDL就必须从元数据入手,我们知道,hive的元数据并不存放在hdfs上,而是存放在传统的RDBMS中,典型的如MySQL,derby等,这里我们以mysql为元数据库,结合0.4.2版本的hive为例进行研究。连接上mysql后可...

2018-12-08 08:33:27 416

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除