Hadoop
文章平均质量分 95
猿大山
程序猿,边学编制整理
展开
-
Scala编程
第一部分 Scala基础第1节 Scala语言概况1.1 Scala语言起源马丁·奥德斯基(Martin Odersky)是编译器及编程的狂热爱好者。主流JVM的Javac编译器就是马丁·奥德斯基编写出来的,JDK5.0、JDK8.0的编译器就是他写的。长时间的编程之后,他希望发明一种语言,能够让写程序这样的基础工作变得高效,简单。当接触到Java语言后,对Java这门语言产生了极大的兴趣,所以决定将函数式编程语言的特点融合到Java中,由此发明了Scala。1.2 Scala语言特点原创 2021-07-25 17:02:23 · 1806 阅读 · 0 评论 -
PB级企业电商离线数仓项目实战【下】
第一部分 电商分析之--核心交易第1节 业务需求本主题是电商系统业务中最关键的业务,电商的运营活动都是围绕这个主题展开。选取的指标包括:订单数、商品数、支付金额。对这些指标按销售区域、商品类型进行分析。第2节 业务数据库表结构业务数据库:数据源交易订单表(trade_orders) 订单产品表(order_product) 产品信息表(product_info) 产品分类表(product_category) 商家店铺表(shops) 商家地域组织表(shop_admin原创 2021-07-12 21:53:06 · 822 阅读 · 8 评论 -
PB级企业电商离线数仓项目实战【上】
第一部分 数据仓库理论第1节 数据仓库1.1 什么是数据仓库1988年,为解决全企业集成问题,IBM公司第一次提出了信息仓库(InformationWarehouse)的概念。数据仓库的基本原理、技术架构以及分析系统的主要原则都已确定,数据仓库初具雏形。1991年Bill Inmon(比尔·恩门)出版了他的第一本关于数据仓库的书《Building theData Warehouse》,标志着数据仓库概念的确立。书中指出,数据仓库(DataWarehouse)是一个面向主题的(Subject O原创 2021-06-26 15:21:17 · 1271 阅读 · 2 评论 -
hadoop生态圈-kafka
第一部分 Kafka架构与实战1.1 概念和基本架构1.1.1 Kafka介绍Kafka是最初由Linkedin公司开发,是一个分布式、分区的、多副本的、多生产者、多订阅者,基于zookeeper协调的分布式日志系统(也可以当做MQ系统),常见可以用于web/nginx日志、访问日志,消息服务等等,Linkedin于2010年贡献给了Apache基金会并成为顶级开源项目。主要应用场景是:日志收集系统和消息系统。Kafka主要设计目标如下:以时间复杂度为O(1)的方式提供消息持久化能力,即转载 2021-05-16 22:17:38 · 566 阅读 · 0 评论 -
Redis
Redis基础Redis介绍什么是RedisRedis (Remote Dictionary Server)远程字典服务器,是用C语言开发的一个开源的高性能键值对( key-value )内存数据库。它提供了五种数据类型来存储值:字符串类型、散列类型、列表类型、集合类型、有序集合类型它是一种NoSQL 数据存储。Redis发展历史2008年,意大利的一家创业公司Merzia 推出了一款基于MySQL 的网站实时统计系统LLOOGG ,然而没过多久该公司的创始人 Salvatore Sanfil原创 2021-04-03 20:25:42 · 303 阅读 · 0 评论 -
Hadoop生态圈技术栈---Zookeeper和HBase
1. Zookeeper简介1.1 Zookeeper是什么?Zookeeper 是一个分布式协调服务的开源框架。 主要用来解决分布式集群中应用系统的一致性问题,例如怎样避免同时操作同一数据造成脏读的问题。分布式系统中数据存在一致性的问题!!ZooKeeper 本质上是一个分布式的小文件存储系统。 提供基于类似于文件系统的目录树方式的数据存储,并且可以对树中的节点进行有效管理。ZooKeeper 提供给客户端监控存储在zk内部数据的功能,从而可以达到基于数据的集群管理。 诸如: 统一命名服务(dub转载 2021-03-11 23:46:40 · 726 阅读 · 0 评论 -
交互式查询工具Impala
第 1 部分 Impala概述1.1 Impala是什什么Impala是Cloudera提供的⼀一款开源的针对HDFS和HBASE中的PB级别数据进⾏行行交互式实时查询(Impala速度快),Impala是参照⾕谷歌的新三篇论⽂文当中的Dremel实现⽽而来,其中旧三篇论⽂文分别是(BigTable,GFS,MapReduce)分别对应我们即将学的HBase和已经学过的HDFS以及MapReduce。Impala最⼤大卖点和最⼤大特点就是快速,Impala中⽂文翻译是⾼高⻆角羚⽺羊。1.2原创 2021-03-07 21:05:12 · 784 阅读 · 2 评论 -
Hadoop生态圈技术栈(上)---hive
第一部分 Hive安装与配置第 1 节 Hive安装配置Hive官网:http://hive.apache.org下载网址:http://archive.apache.org/dist/hive/文档网址:https://cwiki.apache.org/confluence/display/Hive/LanguageManual安装前提:3台虚拟机,安装了Hadoop安装软件:Hive(2.3.7) + MySQL (5.7.26)备注:Hive的元数据默认存储在自带的 derby 数原创 2021-03-04 17:55:29 · 1000 阅读 · 0 评论 -
hadoop基础部分-1
第一部分 大数据简介第一节 大数据的定义大数据是指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。第二节 大数据的特点大数据的特点可以用 IBM 曾经提出的 “5V” 来描述,如下:大量采集、存储和计算的数据量都非常大。计算机存储单位一般用B,KB,MB,GB,TB,PB,EB,ZB,YB,BB、NB、DB来表示,它们之间的关系是1GB = 1024 MB1原创 2021-02-04 12:06:50 · 519 阅读 · 0 评论 -
Hadoop基础部分-2
第一部分 大数据简介第一节 大数据的定义大数据是指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。第二节 大数据的特点大数据的特点可以用 IBM 曾经提出的 “5V” 来描述,如下:大量采集、存储和计算的数据量都非常大。计算机存储单位一般用B,KB,MB,GB,TB,PB,EB,ZB,YB,BB、NB、DB来表示,它们之间的关系是1GB = 1024 MB1原创 2021-02-04 12:07:35 · 801 阅读 · 5 评论