数据仓库
kylin_xue
这个作者很懒,什么都没留下…
展开
-
Hive远程模式搭建
参考文章:https://www.cnblogs.com/linbingdong/p/5829369.htmlhttps://cwiki.apache.org/confluence/display/Hive/AdminManual+Metastore+Administration部署:Hive的metastore和hiveserver2服务运行在bigdata4,mysql数据库同样运...原创 2019-01-24 16:56:25 · 432 阅读 · 0 评论 -
sparkStreaming
目录核心概念DStreamReceiverTransformationOutput OperationIDEA搭建SparkStreaming环境的pom文件带状态的算子:UpdateStateByKey基于window的统计核心概念SparkStreaming可以简单的理解为 StreamingContext将数据按照时间分为很多小的RDD,然后再交给Sp...原创 2019-02-20 22:22:48 · 392 阅读 · 0 评论 -
离线大数据调度框架 -- 1、需求分析
1、启动flume将指定文件【文件内容每一分钟增加若干行,模拟nginx日志】自动同步到HDFS。 要求:将文件归档时间设置为1小时; 归档文件存储格式设置为LZO; HDFS文件按天分文件夹进行存储,不能全部同步到一个文件夹中;2、配置MR任务并依赖flume任务 要求:将日志文件解析到hive表每天对应的分区中 查看每天分区日志里面是否有其它天的日志【Eve...原创 2019-02-27 12:05:54 · 497 阅读 · 0 评论 -
数据仓库ETL记录
这里维度建模的分层是:业务数据库 ==> RDS库 ==> DW库 【这里RDS还可以叫做ODS,和业务数据库保持一致】RDS库表使用默认的文本存储格式,可以直接使用 alter table语句修改表结构。如果表使用ORC格式,使用alter table修改表模式,尤其是增加列的支持老版本的hive【hive1.1.0之前的版本】会有很多问题【Error: java...原创 2019-02-25 10:09:30 · 398 阅读 · 0 评论 -
电商网站统计指标
目录一丶基础统计类二丶销售分析类三丶直通车数据类四丶来源分析类分析店铺销售情况的电商专业术语一丶基础统计类1丶浏览量(PV):店铺各页面被查看的次数。用户多次打开或刷新同一个页面,该指标值累加。2丶访客数(UV):全店各页面的访问人数。所选时间段内,同一访客多次访问会进行去重计算。3丶收藏量:用户访问店铺页面过程中,添加收藏的总次数(包括首页、分类页和宝贝页的收...转载 2019-02-18 17:54:18 · 1904 阅读 · 0 评论 -
hive案例-用户行为日志分析
目录背景建立相关表weblog表member用户表orders订单表 hive用户日志分析简单查询、关联查询日期函数、正则表达式、窗口函数用户画像标签库的建立和使用【灵活使用行转列、列转行操作】背景用户行为日志格式如下:{"address":{"country":"中国","province":"山东","city":"济南&qu原创 2019-02-18 15:23:07 · 4789 阅读 · 1 评论 -
Flume + Kafka+sparkstreaming
整合Flume、Kafka搭建实时日志收集系统Flume收集某一个目录的日志,设置kafka sink,Kafka从sink中pull数据进行消费。物理配置主机名:s201 zookeeper3.4.12:s201:2181 kafka0.9.0.1:s201:9092flume1.7.0spark:2.2.3flume配置文件如下:# 监听flume_...原创 2019-02-23 10:00:40 · 451 阅读 · 0 评论 -
分布式消息中间件Kafka
以下为网易云课堂微专业Java高级开发的笔记以及自己的体会。 消息中间件的本质:一种具备接受请求、保存数据、发送数据等功能的网络应用。5大核心组成:协议、持久化机制、消息分发机制、高可用设计、高可靠设计。举例:RocketMQ 支持的Openmessaging协议:解析快,有事务设计、持久化设计Kafka协议:结构简单、解析快、无事务设计、有持久化设计Kafka...原创 2019-02-22 14:44:32 · 723 阅读 · 0 评论 -
UDAF案例
收集30分钟之内的action_id,聚合为一个list<!-- maven配置文件 --><?xml version="1.0" encoding="UTF-8"?><project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001...转载 2019-06-26 21:58:41 · 639 阅读 · 0 评论