自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(18)
  • 收藏
  • 关注

原创 效率神器--Shell快捷键

Shell快捷键ctrl + a :光标跳到行首。ctrl + e :光标跳到行尾。ctrl + d :后删一个字符;退出会话,类似于 exit 。ctrl + k :剪切光标后到行尾的所有内容(可以当作清除用)ctrl + u :剪切光标前到行首的所有内容(可以当作清除用)ctrl + w :剪切光标前的单个单词,以空格分隔(可以当作清除用)ctrl + y :粘贴剪切的内容。ctrl + r :反向搜索历史命令,实现快速匹配。(真的比 ↑↓ 键找或者是 h

2020-08-17 23:57:38 331

原创 一文掌握Shell中单引号和双引号区别

Shell中单引号和双引号区别1)创建一个test.sh文件$ vim test.sh 在文件中添加如下内容#!/bin/bashdo_date=$1echo '$do_date'echo "$do_date"echo "'$do_date'"echo '"$do_date"'echo `date`2)查看执行结果$chmod u+x test.sh$./test.sh 2019-02-10$do_date2019-02-10'2019-02-10'"$do_date

2020-08-17 00:00:31 165

原创 Hive特殊函数

Hive特殊函数1.窗口函数应用场景 :用于分区排序 ;动态Group By ;Top N ;累计计算 ;层次查询Windowing functions:lead、lag、FIRST_VALUE、LAST_VALUE2.分析函数Analytics functions:RANK、ROW_NUMBER、DENSE_RANK、CUME_DIST、PERCENT_RANK、NTILE3.混合函数java_method(class,method [,arg1 [,arg2])reflect(class,m

2020-08-16 23:58:11 250

原创 Spark SQL快速入门

Spark SQL快速入门Spark 的 SQL 语法源于 Presto (一种支持 SQL 的大规模并行处理技术,适合 OLAP),在源码中我们可以看见,Spark 的 SQL 解析引擎直接采用了 Presto 的 SQL 语法文件。查询是 Spark SQL 的核心功能,Spark SQL 的查询语句模式如下:[ WITH with_query [, ...] ]SELECT [ ALL | DISTINCT ] select_expr [, ...][ FROM from_item [, ..

2020-08-16 20:22:28 205

原创 电商项目实际相关问题

电商项目相关问题1.Tez引擎优点?答:Tez可以将多个有依赖的作业转换为一个作业,这样只需写一次HDFS,且中间节点较少,从而大大提升作业的计算性能。2.在项目中是否自定义过UDF、UDTF函数,以及用他们处理了什么问题?答:用UDF函数解析公共字段,输入一输出一;用UDTF函数解析事件字段,输入一输出多。3.如何分析用户活跃?答:在启动日志中统计不同设备id 出现次数。4.如何分析用户新增?答:用活跃用户表 left join 用户新增表,用户新增表中mid为空的即为用户新增。5.如何

2020-08-16 20:16:15 145

原创 YARN主从架构的实现

YARN 是 Hadoop 2.0 引入的统一资源管理和调度系统,也很具有代表性,目前 Spark on YARN 这种模式也在大量使用。YARN 的架构是典型的主从架构,主节点是 ResourceManger,也是我们前面说的主调度器,所有的资源的空闲和使用情况都由 ResourceManager 管理。ResourceManager 也负责监控任务的执行,从节点是 NodeManager,主要负责管理 Container 生命周期,监控资源使用情况等 ,Container 是 YARN 的资源表示模型

2020-08-16 20:15:22 2119

原创 Apache Kylin在大规模数据处理上的优势

Apache Kylin 是 Hadoop 大数据平台上的一个开源 OLAP 引擎。它采用多维立方体预计算技术,可以将大数据的 SQL 查询速度提升到亚秒级别,它是一种以空间换时间的做法。SQL on Hadoop 技术(Hive, Impala, SparkSQL等)将传统的数据库查询的小时级别提升到分钟级别,而 OLAP on Hadoop 则将 SQL on Hadoop 的分钟级别提升到亚秒级别。SQL on Hadoop 的技术主要是:“大规模并行处理”(MPP: Massive Parall

2020-08-16 11:16:35 250

原创 Kylin特点及工作原理

Kylin特点及工作原理1.Kylin:开源、分布式分析引擎、提供Hadoop/Spark上的SQL查询接口及多维分析(OLAP)能力以支持超大规模数据,ebay开发供给apache社区,能在亚秒内查询巨大的Hive表2.特点:标准SQL接口支持超大数据集亚秒级响应可伸缩性和高吞吐率BI工具集成3.Kylin架构REST Server查询引擎(Query Engine)Routing元数据管理工具(Metadata)任务引擎(Cube Build Engine)4.Kyl

2020-08-16 11:13:28 260

原创 Hive相关问题汇总

Hive相关问题1.Hive与数据库比较不同点Hive数据库相同点数据存储位置存在HDFS存在块设备或本地文件系统类似查询语言数据更新不建议改写数据数据经常修改执行延迟(数据规模小时)延迟高延迟低数据规模支持很大的数据计算支持的数据规模较小2.四个By区别Sort By:分区内有序;Order By:全局排序,只有一个Reducer;Distrbute By:类似MR中Partition,进行分区,结合sort by使用。

2020-08-16 10:37:29 115

原创 大数据之SQL查询引擎Presto

Presto1.Presto:开源、分布式SQL查询引擎、支持GB~PB数据量、主要用来处理秒级查询的场景、端口号70802.架构:一个Coordinator和多个Worker组成,Catolog表示数据源,一个Catolog包含Schema(类似MySQL中的数据库,Table类似MySQL中表)和Connector(适配器,用于Presto和数据源如Redis、Hive的连接,类似JDBC)3.优点:基于内存运算,减少了磁盘IO,计算更快能连接多个数据源,跨数据源联表查,如从Hive查询大量网站

2020-08-16 10:22:51 284

原创 列式存储与传统的行式存储异同及优势

行式存储可以看成是一个行的集合,其中每一行都要求对齐,哪怕某个字段为空(下图中的左半部分),而列式存储则可以看成一个列的集合(下图中的右半部分)。列式存储的优点很明显,主要有以下 4 点:查询时可以只读取涉及的列(选择操作),并且列可以直接作为索引,非常高效,而行式存储则必须读入整行。列式存储的投影操作非常高效。在数据稀疏的情况下,压缩率比行式存储高很多,甚至可以考虑将相关的表进行预先连接,来完全避免投影操作。因为可以直接作用于某一列上,聚合分析非常迅速。行式存储一般擅长的是插入与更新操作,而列

2020-08-15 22:31:35 3464

原创 电商项目必备之SKU、SPU解密

电商常识(SKU、SPU)SKU=Stock Keeping Unit(库存量基本单位)。现在已经被引申为产品统一编号的简称,每种产品均对应有唯一的SKU号。SPU(Standard Product Unit):是商品信息聚合的最小单位,是一组可复用、易检索的标准化信息集合。SPU表示一类商品。好处就是:可以共用商品图片,海报、销售属性等。比如,咱们购买一台iPhoneX手机,iPhoneX手机就是一个SPU,但是你购买的时候,不可能是以iPhoneX手机为单位买的,商家也不可能以iPhoneX为单位

2020-08-15 22:29:16 642

原创 一文了解UML

UML简介UML(Unified Model Language)统一建模语言:包含整套图表[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-Ezp0KsrW-1597501094646)(C:\Users\wh503\Desktop\离线系统\UML.jpg)]类图(Class Diagram)一切面向对象方法的核心建模工具,用来表示类、接口及它们之间的静态结构和关系。类图中有以下关系:泛化(Generalization)泛化关系:子类继承父类的关系箭头指向:带三角

2020-08-15 22:26:41 196

原创 数仓理论之表

数仓理论之表1.表的分类实体表:一般是指一个现实存在的业务对象,比如用户,商品,商家,销售员等等。维度表:一般是指对应一些业务状态,编号的解释表。也可以称之为码表。比如地区表,订单状态,支付方式,审批状态,商品分类等等。事务型事实表:一般指随着业务发生不断产生的数据。特点是一旦发生不会再变化。比如交易流水,操作日志,出库入库记录等等。交易流水表:编号对外业务编号订单编号用户编号支付宝交易流水编号支付金额交易内容支付类型支付时间1757769794511

2020-08-15 19:30:06 404

原创 电商项目业务术语汇总

电商项目业务术语汇总1.用户用户以设备为判断标准,在移动统计中,每个独立设备认为是一个独立用户。Android系统根据IMEI号,IOS系统根据OpenUDID来标识一个独立用户,每部手机一个用户。2.新增用户首次联网使用应用的用户。如果一个用户首次打开某APP,那这个用户定义为新增用户;卸载再安装的设备,不会被算作一次新增。新增用户包括日新增用户、周新增用户、月新增用户。3.活跃用户打开应用的用户即为活跃用户,不考虑用户的使用情况。每天一台设备打开多次会被计为一个活跃用户。4.周(月)活跃用

2020-08-15 19:28:56 244

原创 数仓分层简介

数仓1.数仓分层好处:复杂问题简单化;减少重复开发;隔离原始数据。2.数仓分层具体实现ODS(Operation Data Store)层:原始数据层,存原始数据,直接加载原始日志、数据DWD(Data Warehouse Detail)层:明细数据层也有叫DWI层,结构和粒度与原始表保持一致,对ODS层数据进行清洗(去除空值、脏数据、超过极限范围的数据、行式存储转列式存储、改压缩格式)DWS(Data Warehouse Service)层:服务数据层,以DWD为基础进行轻度汇总。比如:用户当日

2020-08-15 19:24:14 599

原创 Hadoop双机热备用HA实现

双 NameNode(HA)实现原理双NN出现背景在 Hadoop1.x 版本中,HDFS 只支持一个 NameNode,为了保证稳定性,只能靠 SecondaryNameNode 来实现,而 SecondaryNameNode 不能做到热备,而且恢复的数据也不是最新的元数据。基于此,从 Hadoop2.x 版本开始,HDFS 开始支持多个 NameNode,这样不但可以实现 HDFS 的高可用性(HA,High Availability),而且还可以横行扩容 HDFS 的存储规模。故而在实际的企业应

2020-07-18 22:21:45 568

原创 Hadoop生态简介

玩转大数据之Hadoop生态圈起底Hadoop生态圈HDFS(Hadoop 分布式文件系统)MapReduce(分布式计算模型)离线计算Yarn(分布式资源管理器)Spark(内存计算)HBase(分布式列存储数据库)Hive(数据仓库)Oozie(工作流调度器)Sqoop 与 PigFlume(日志收集工具)Kafka(分布式消息队列)ZooKeeper(分布式协作服务)Ambari(大数据运维工具)Hadoop生态圈Hadoop 是 Apache 下的一个开源项目,说起 Hadoop,通常都会跟“大

2020-07-18 17:10:59 313

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除