自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

hufei

大数据的学习总结以及学习过程心路历程

  • 博客(12)
  • 收藏
  • 关注

原创 Hive常用查询指令

一、查询表结构desc table_name;二、查询分区show partitions table_name;三、杀死某个任务hadoop job kill job_id四、查看创建表语句show create table table_name;

2019-07-29 15:41:24 244

原创 观人之感

目录一、前提二、观人七则三、冰鉴1、神篇2、骨篇3、刚柔4、时态四、现象一、前提能知人善任,识有志之士二、观人七则家庭不论贫富,最忌者有七事:一不早起,二无礼貌,三眠食无定时,四蓄赌具,五闲,六收支无预算,七借债而不还。但诸病皆从闲字起。一、不早起者,一切奸恶隐蔽等事自然而发生。二、无礼貌者,永不得向上与有道人相交接,自然堕落。三...

2019-05-23 11:20:24 242

原创 HIVE留存、连续三天等业务指标分析

目录一、前提二、用户留存1、一天留存,直到多天留存,留存率2、创表3、sql三、沉默用户1、沉默用户2、创表3、sql四、本周回流用户数1、概念2、创表3、sql五、连续三周活跃用户1、概念2、创表3、sql六、一周内连续三天的活跃用户1、概念2、创表3、sql一、前提dws层,用户日,周,月活跃度,...

2019-05-13 11:57:00 3648 3

原创 HIVE日活、周活、月活、新增业务指标分析

目录一、前提二、dws层日活、周活、月活1、数据的走向分析2、日活sql3、dws_uv_detail_day日活跃的数据4、周活跃sql5、dws_uv_detail_wk周活跃的数据6、月活跃的sql:7、dws_uv_detail_wk月活跃的数据三、ads层活跃用户数统计1、活跃用户表的创建2、活跃用户数的sql一、前提数据仓库...

2019-05-13 11:35:53 4862

原创 hive总结

一、前提在hadoop集群中一台机器安装hive,熟悉常用指令。二、了解hive1.hive是什么?hive是facebook开源的应用于处理分析大量数据的数据仓库,hive封装了很多mapreduce的mr模型,客户端可以通过hql经过hive的匹配到mr模型,mr运算的结果返回给客户端。hive的数据存放在hdfs,计算是mr,运行在yarn上,hive是数据结构的一种表映...

2019-05-13 10:57:55 125

原创 数据仓库项目整理(一)

目录一、前提二、流程图三、数据仓库的分层1、为什么要分层?2、哪四层以及作用?四、具体实现1.obs原始数据层2.dwd明细数据层一、前提hadoop+zookeeper+kafka+flume+hive+tez集群搭建完毕,对采集的日志数据进行数据仓库分层,做一下简单回顾总结,如果对上述软件不熟悉,后面我再做详细分节补充。二、流程图该项目抽象出来的...

2019-05-11 20:21:20 4566

原创 学习之路

一点心得体会

2019-05-07 23:02:58 118

原创 linux集群的系统时间、硬件时间与网络时间不同步的处理

一、前提1.root用户下系统时间的查看# date2019年 04月 28日 星期日 19:06:34 CST2.root用户下硬件时间的查看# clock -r2019年04月28日 星期日 19时07分40秒 -0.516336 seconds3.网络时间的域名:0.cn.pool.ntp.org二、当发现网上时间(windows上的时间)、系统时间、硬件时...

2019-04-28 19:19:26 1077

原创 zookeeper分布式集群安装

一、前提安装jdk,搭建三台虚拟机,配置好ip地址,修改hostname,ssh免密登陆完成,下载zookeeper-3.4.10.tar二、安装1.解压zookeeper-3.4.10.tartar -zxvf zookeeper-3.4.10.tar -C2.在zookeeper根目录创建zkData文件夹,并在zkData文件夹下创建myid$ mkdir zkD...

2019-04-28 18:54:53 147

原创 hadoop分布式集群安装

一、前提安装jdk,搭建三台虚拟机,配置好ip地址,修改hostname,ssh免密登陆完成,下载hadoop-2.7.2.tar二、搭建hadoop集群1.解压hadoop-2.7.2.tar到自己需要的目录下,配置好环境变量$ sudo vim /etc/profileexport HADOOP_HOME=/usr/hadoop/apps/hadoop-2.7.2exp...

2019-04-28 18:42:28 120

原创 oozie安装以及定时调度总结

一、前提安装jdk,hadoop集群,启动start-dfs.sh,start-yarn.sh所需安装包oozie-4.0.0-cdh5.3.6.tar,ext-2.2,mysql-connector-java-5.1.27-bin.jar,请自行下载解压oozie-4.0.0-cdh5.3.6.tar.gz安装包到个人需要的目录(所有目录以及hostname请与自己机器名匹配)二...

2019-04-28 18:10:24 503

原创 maven项目建立后报错问题

一.创建maven之后,pom.xml报错    在pom.xml加一段代码:        然后update maven,错误消失二.在update项目后,java版本一直回到1.5,需要手动更改很麻烦,两种方式解决    1.在pom.xml加一段代码:        2.在maven配置文件中修改setting.xml    ...

2018-06-04 19:15:39 669

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除