数仓项目第一天

关系数据库系统是支持关系模型的数据库系统。常见的数据库MySQL,Oracle、DB2,SQLServer都是关系型数据库。 关系: 由行和列构成的二维结构,对应关系数据中表,也就是数据的存储结构 元组   关系数据库中的一个表的行,也就是一条记录。 关系数据库的特性 在一个数据库中,...

2019-02-12 20:26:03

阅读数 205

评论数 0

hive电商项目:3会员主题

create table if not exists dwd_mem( pl string, pl_id string, en string, en_id string, browser_name string, browser_id string, browser_version string...

2019-01-05 01:00:30

阅读数 105

评论数 0

hive电商项目:2用户主题

创建dw层的数据 ##为新增用户、总用户、活跃用户做计算: create table if not exists dwd_user( pl string, pl_id string, en string, en_id string, browser_name string, browser_id...

2019-01-05 00:56:48

阅读数 129

评论数 0

hive电商项目:1数仓构建过程

1、获取数据源 后台的服务数据 前台的点击流日志数据 业务数据 2、确定主题 用户主题:用户、会员相关的信息 订单主题:订单相关的信息 浏览器主题:跟浏览器相关的信息 事件主题:跟事件相关 3、创建模型(创建表) 100张表以内不分层,以外将分层。 如果维度表较多则将维度表单独分层 1、创...

2019-01-05 00:55:52

阅读数 598

评论数 0

HQL入门50题

  student(s_id,s_name,s_birth,s_sex) –学生编号,学生姓名, 出生年月,学生性别  course(c_id,c_name,t_id) – –课程编号, 课程名称, 教师编号  课程编号:1语文 2数学 3英语 teacher(t_id,t_name) –教师...

2019-01-04 16:35:09

阅读数 125

评论数 0

sqoop

作用:将关系型数据库(mysql Oracle等)中的数据导进到hadoop的hdfs中,也可以将hdfs中的数据导进到关系型数据库中。 原理:会将sqoop命令翻译成MR中的Inputformat,outputformat 注:从hdfs到关系型数据库叫导出,从关系型数据库到hdfs叫导入 ...

2019-01-02 13:55:47

阅读数 51

评论数 0

scala1

package com.juruo.scala.chapter01 //scala是完全面向对象的语言,它没有static语法操作 //虽说java是完全面向对象的,但java中的8个基本类型、static修饰的内容都不是面向对象的 //编译:xx.scala --> xx...

2018-12-25 16:22:16

阅读数 34

评论数 1

java 枚举values()方法

public enum EnumDemo { LAUNCH(1, "launch event", "e_l"),//launch事件,表示第一次访问 PAGEVIEW(2, "page vie...

2018-12-23 20:34:10

阅读数 270

评论数 0

项目介绍

【1】项目总体介绍 1项目综述: 在本次课程中,项目分别为bf_track(收集数据),bf_transforer和bf_dataapi。本次项目 主要以分析七个模块的数据,分别为用户基本信息分析,操作系统分析,地域信息分析, 用户浏览深度分析、外链数据分析(指从别的网站进入我们收集数据的网...

2018-12-22 21:20:53

阅读数 99

评论数 0

centOS6关闭防火墙

[1]service iptables stop [2]vi /etc/selinux/config SELINUX=disabled 改完之后要重启机器 

2018-12-22 11:04:12

阅读数 33

评论数 0

未解决的问题

【1】nginx 80端口无法访问

2018-12-22 09:03:10

阅读数 86

评论数 0

centos6安装nginx

安装nginx的步骤: 1).root用户登录 2).yum info nginx  找不到nginx的安装包 3).rpm -ivh https://nginx.org/packages/centos/6/noarch/RPMS/nginx-release-centos-6-0.el6.ngx....

2018-12-21 00:45:21

阅读数 59

评论数 0

hadoop项目1--需求相关

知识点: 1ETL,是英文 Extract-Transform-Load 的缩写,用来描述将数据从来源端经过抽取(extract)、交互转换(transform)、加载(load)至目的端的过程。 2StringUtils public static boolean isEmpty(Stri...

2018-12-20 18:19:42

阅读数 101

评论数 0

Flume

Flume是一个Cloudera提供的一个高可用的,高可靠的,分布式的海量日志采集,聚合和传输的系统,Flume基于流式框架,灵活简单。 Flume最主要的作用就是:实时读取服务器本地磁盘的数据,将数据写入到HDFS. flume由三部分组成: source:源 channel:通道 ...

2018-12-18 20:59:24

阅读数 50

评论数 0

使用淘宝解析ip地址

package item_day2; //1、使用淘宝解析ip地址 // 示例:用浏览器访问下面这段url,会显示出地址信息。只要我们将想要查询信息的IP地址 // 改变就会在页面显示出来 // http://ip.taobao.com/service/...

2018-12-18 11:18:08

阅读数 290

评论数 0

UserAgent的解析

package item_day2; import cz.mallat.uasparser.OnlineUpdater; import cz.mallat.uasparser.UASparser; import cz.mallat.uasparser.UserAgentInfo; impor...

2018-12-18 11:16:48

阅读数 180

评论数 0

hive权限问题

更详细的解释:https://blog.csdn.net/yuhan61659/article/details/80590227   在mysql中写: 【1】 grant all privileges on *.* to 'root'@'item1'  identified by '123...

2018-12-17 21:51:58

阅读数 94

评论数 0

hadoop 项目day1作业

【1】大数据离线项目流程 1、数据的产生 tomcat服务器、业务数据、 nginx服务器(前端的点击行为,通过JS代码发送http请求到nginx服务区,nginx服务器将数据生成日志) 2、数据的收集 flume、sqoop(数据整合工具) 存储在哪儿里? HDFS、hive、HBASE 3...

2018-12-17 20:31:09

阅读数 44

评论数 0

UDF练习

原始数据8条: "1"    "A"    "R"    32    "H"    "w"    "...

2018-12-14 17:15:33

阅读数 126

评论数 0

mapreduce中的join

mapreduce常见的join:reduce端的join、map端的join、semi join?? 【1】reduce端的join 核心思想: 在map端将来源不同的数据或者有不同用处的数据打标机输出,以便reduce端能 够识别并进行连接关系查找。 适合场景:所有的表都是大表时(几乎...

2018-12-04 02:42:25

阅读数 66

评论数 0

提示
确定要删除当前文章?
取消 删除
关闭
关闭