自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

BabyFish13

技术、业务、生活、人生......

  • 博客(10)
  • 资源 (6)
  • 收藏
  • 关注

原创 某live平台生产环境E-MR配置情况一览

1、集群概况Hadoop version:2.7.2Memory Total:409.59 GBVCores Total:164Active Nodes:16namenode:emr-header-1emr-header-2datanode:emr-worker-1emr-worker-2emr-worker-3emr-worker-4emr

2017-12-26 10:11:04 580

原创 Hive中那些有趣的字符串函数

1. 字符串反转函数:reverse语法: reverse(string A)返回值: string说明:返回字符串A的反转结果举例:hive> select reverse('abcedfg');OKgfdecbaTime taken: 0.203 seconds, Fetched: 1 row(s)2. 带分隔符字符串连接函数:concat_ws语法:

2017-12-22 15:10:09 1661

原创 E-MapReduce上Hive创建基于oss的外部表

1、在E-MapReduce上创建基于OSS的Hive外部表样例:hive> show create table oss_share_feedback;OKCREATE EXTERNAL TABLE `oss_share_feedback`( `uid` string, `os` string, `source_id` string, `type` string,

2017-12-20 11:15:14 1909

原创 初识DataLake数据湖

维基百科对Data lake的解释:数据湖是一种在系统或存储库中以自然格式存储数据的方法,它有助于以各种模式和结构形式配置数据,通常是对象块或文件。数据湖的主要思想是对企业中的所有数据进行统一存储,从原始数据(这意味着源系统数据的精确副本)转换为用于报告、可视化、分析和机器学习等各种任务的转换数据。湖中的数据包括结构化数据从关系数据库(行和列),半结构化数据(CSV、XML、JSON的日志),非结...

2017-12-14 15:18:05 12993

原创 hive执行SQL任务时报错Execution failed with exit status: 3

错误信息:Ended Job = job_1512373388022_42906SLF4J: Class path contains multiple SLF4J bindings.SLF4J: Found binding in [jar:file:/opt/apps/apache-hive-2.0.0-bin/lib/hive-jdbc-2.0.0-standalone.jar!/org

2017-12-13 17:36:10 1864

原创 Excel中身份证相关信息利用函数获取一例

表格展示:1、根据身份证号取年龄=DATEDIF(DATE(MID(B2,7,4),MID(B2,11,2),MID(B2,13,2)),TODAY(),"y")&"岁"2、根据身份证号取出生日期=--TEXT(MID(B2,7,8),"0!/00!/00")3、根据身份证号取性别=IF(MOD(MID(B2,17,1),2),"男","女")4、根据身

2017-12-04 11:13:59 1056

原创 Python利用groupby模块进行Mysql分表数据的汇总统计

Mysql分表数据,一般情况下我们是把他导入到数据仓库中整合到一张表中;由于环境受限,所以考虑使用Python脚本取分表数据在Python中进行计算的形式。1、取Mysql分表进行汇总计算的Python脚本/Users/nisj/PycharmProjects/BiDataProc/love/staticFromMysqlSubmeter.py# -*- coding=utf-8 -*

2017-12-02 14:49:52 1317

原创 互联网分析指标相关学习笔记(1)

互联网运营三部曲:拉新、留存、促活所谓拉新,就是为你的产品带来新用户。带来新用户的手段和途径可以是多种多样的,可以是策划和制造一个具有传播性的话题和事件,可以是投放广告,可以是居于站内做个活动,还可以是通过微博、微信……因而,在拉新的层面上,一个运营可能会涉及到以上各种手段中的一种或多种。再来看留存,所谓留存,就是要通过各种运营手段确保用户被拉到你的产品和站点上之后,最终愿意留下来跟你一起

2017-12-01 19:16:25 1142

原创 官方解读双十一大促直播都看什么指标?

本文章适合天猫店长和数据运营岗相关人员来了解学习。【预热篇】:双十一大促之前要重点看哪些数据指标?一、店铺核心数据:1、支付宝成交额:全店成功拍下并已付款到支付宝的金额。2、店铺访客数:全店各页面的访问人数。所选时间段内,同一访客多次访问会进行去重计算。3、详情页访客数:全店各详情页面的访问人数。所选时间段内,同一访客多次访问会进行去重计算。4、店铺浏览量:店铺各页面被查看

2017-12-01 15:48:24 1830

原创 比较有用的若干EXCEL常用函数

1、vlookupvlookup(lookup_value,table_array,col_index_num,[range_lookup])lookup_value表示要查找的对象;table_array表示查找的表格区域;col_index_num表示要查找的数据在table_array区域中处于第几列的列号;range_lookup表示查找类型,其中1表示近似匹配,0表示

2017-12-01 11:20:32 2069

有赞数据仓库元数据系统的演进(有赞Data沙龙).pdf

有赞数据仓库元数据系统的演进

2021-01-18

DM数据仓库建模

数据仓库建模的有关说明 详细的文档及解读的ppt

2019-03-22

NCR逻辑模型设计概览

逻辑模型设计 方法论;一些数据仓库建模时的参考,方法等。主要用在数据仓库体系规划、架构设计方面的参考。

2018-01-31

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除