大数据
文章平均质量分 51
飄落
这个作者很懒,什么都没留下…
展开
-
docker 使用小结
docker stop 容器id也可以使用如下命令开启停止状态的容器docker start 容器id使用docker ps 查看容器id和状态等https://c.163yun.com/hub#/m/home/ 网易蜂巢公共镜像中心docker pull hub.c.163.com/library/nginx:latestdocker pull hub.c.163.com/lib...原创 2020-01-01 21:25:45 · 175 阅读 · 0 评论 -
数据仓库之ETL实战
ETL,Extraction-Transformation-Loading的缩写,中文名称为数据抽取、转换和加载。一般随着业务的发展扩张,产线也越来越多,产生的数据也越来越多,这些数据的收集方式、原始数据格式、数据量、存储要求、使用场景等方面有很大的差异。作为数据中心,既要保证数据的准确性,存储的安全性,后续的扩展性,以及数据分析的时效性,这是一个很大的挑战。名词解释:ODS——操作性...转载 2019-02-25 11:24:25 · 292 阅读 · 0 评论 -
Cloudera&CDH安装配置说明
实验环境实验环境:Win7下vmware虚拟机操作系统:CentOS 6.5 x64Clouder Manager:5.14.0CDH:5.14.0安装说明官方共给出了3中安装方式:第一种方法必须要求所有机器都能连网,由于最近各种国外的网站被墙的厉害,我尝试了几次各种超时错误,巨耽误时间不说,一旦失败,重装非常痛苦。第二种方法下载很多包。第三种方法对系统侵入性最小,最大优点可实现全离...转载 2019-02-20 15:28:17 · 339 阅读 · 0 评论 -
HDFS的使用 shell接口格式化操作 mapReduce的原理
HDFS的使用 shell接口 格式化操作: hadoop namenode -format展示文件: hadoop fs -ls / hadoop fs -ls / user HDFS使用:它提供了 shell 接口,可以进行命令行操作hadoop namenode -format #格式化namenode hadoop fs -ls / #打印 / 目录文件列表ha...原创 2019-02-20 16:54:52 · 227 阅读 · 0 评论 -
OLAP引擎这么多,麻袋财富为什么选择用Kylin做自助分析?
项目背景麻袋财富(原麻袋理财)成立于 2014 年 12 月底,是中信产业基金控股的网络借贷信息中介平台,经过 4 年平稳而快速的发展,截至目前,累计交易金额达 750 亿,已成为行业头部平台。庞大的业务量带来了数据量指数级增长,原有的数据分析处理方式已远远不能满足业务的需求:流程耗时长:逻辑比较复杂的数据需求,可能会涉及到开发,产品经理,BI 等多方相关人员,通过反复的沟通,确认才能完成...转载 2019-04-02 08:45:15 · 254 阅读 · 0 评论 -
BO DI处理 SCD2维表
摘要:本文首先介绍了缓慢变化维的定义、三种处理方式。之后以员工维表数据为例,详细说明如何使用BO DI实现SCD2维表的ETL。最后讲解了SCD2维表如何使用。1缓慢变化维简介某些维度的属性会随着时间缓慢变化,这种维度被称为缓慢变化维(Slowly Changing Dimension,SCD)。举个例子,跨国企业的员工可能会在不同区域间调动工作,但两次调动之间的时间间隔不会太短,...转载 2019-06-17 22:08:24 · 429 阅读 · 0 评论 -
医疗大数据平台的建设思考
当下,数据对于医院的重要性不言而喻。深入的数据挖掘和应用,无论对临床、科研、管理,还是对患者服务、药物研究,都能起到推动作用。而在另一方面,各医院的系统和数据大都是碎片化的,信息资源基本都躺在数据库中“沉睡”,数据利用率不高,没有充分发挥出价值。...原创 2019-07-12 14:03:42 · 654 阅读 · 0 评论 -
大数据架构师该做到的
大数据架构师该做到的https://www.processon.com/view/5c3e0543e4b0db2e59364112?fromnew=1#map软实力六:个人素质1.体系化建设快速了解一个体系渠道专业图书技术官网githubprocesson 里的推荐功能技术博客知乎体系报告网站(参考 数据获取-外部数据-数据报告)各种行业平台...原创 2019-07-12 14:08:25 · 1153 阅读 · 0 评论