自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

大数据训练营

大数据训练营

转载 表达式引擎Aviator

Aviator是一个轻量级、高性能的Java表达式执行引擎, 本文内容主要来自于官方文档更多干货 分布式实战(干货) spring cloud 实战(干货) mybatis 实战(干货) spring boot 实战(干货) React 入门实战(干货) 构建中小型互联网企业架构(干货) python 学习持续更新 ElasticSearch 笔记 kafka storm 实战 (干货) scala 学.

2020-06-14 22:06:16 92

转载 Apache Kylin 云原生架构的思考及规划

原文地址:https://mp.weixin.qq.com/s/mBLeSlU-IQlYTNe9cOkFVQ各位同学,大家下午好!非常高兴今天来到这个场合,给大家介绍一下 Apache Kylin 在接下来云原生方面的变化和思考,以及我们在这方面最近的工作。01关于 Apache Kylin首先介绍一下 Apache Kylin 这个项目,Kylin 是我们五六年前在 ...

2020-03-20 22:24:52 186

原创 大数据体系干货(一) - 数据平台与数据中台

目录数据平台数据中台数据平台与数据中台的区别与联系区别联系整体架构硬件层&虚拟化数据平台存储能力计算能力管理平台数据中台数据仓库数据集市数据开发数据运维赋能对象赋能管理者赋能业务运营赋能业务中台赋能数据变现赋能合作伙伴数据平台数据平台是在数以万计的硬件之上建立统一的基础数据存储和计算的服务,当然我们所建设的数据平台需要周边一些辅助的服务来支撑核心服务的运行,以及一些数据平台管理类工具...

2019-12-28 20:41:12 1911

原创 推荐系统系列 - 实例一 - 基于流行度的算法 - 搜索热词推荐

目录基础知识基础知识

2019-12-15 19:12:07 5933

原创 推荐系统系列 - 实例二 - 协同过滤算法-储备知识

目录基础知识基础知识

2019-09-05 23:57:20 1470

原创 Antlr - 使用antlr4实现一个计算器,配合变量可以实现程序里的复合指标运算

目录开发环境准备idea项目配置antlr配置文件代码编写测试zookeeper下载开发环境准备idea我使用idea开发,所以使用一idea作为环境参考,idea版本是打开preferences,选择plugins输入antlr,没有安装过,点击下面进入repositories点击install,等待一会安装完成重启idea,看此处插件的antlr版本是4....

2019-08-10 23:06:17 5531

转载 推荐系统系列 - 引导 - 5类系统推荐算法,非常好使,非常全

  ◆ ◆ ◆  序言  最近因为PAC平台自动化的需求,开始探坑推荐系统。这个乍一听去乐趣无穷的课题,对于算法大神们来说是这样的:    而对于刚接触这个领域的我来说,是这样的:    在深坑外围徘徊了一周后,我整理了一些推荐系统的基本概念以及一些有代表性的简单的算法,作为初探总结,也希望能抛砖引玉,给同样想入坑的伙伴们提供一些思路。  ◆ ◆ ◆  什么是推荐系...

2019-08-04 20:15:31 95680 14

原创 伪分布式系列 - 第七篇 - zookeeper-环境搭建

目录zookeeper架构环境准备zookeeper配置zk启动测试zookeeper架构环境准备zookeeper配置zk启动测试

2019-08-04 00:26:47 5896

原创 伪分布式系列 - 第六篇 - flume-1.9.0-环境搭建

目录环境准备下载flumeflume配置启动测试环境准备下载flume下载地址:http://flume.apache.org/download.html http://mirror.bit.edu.cn/apache/flume/1.9.0/apache-flume-1.9.0-bin.tar.gz版本:1.9.0flume配置启动测试...

2019-08-02 21:12:02 6053

原创 伪分布式系列 - 第五篇 - flink-1.8.1-bin-scala_2.12-环境搭建on hadoop3.2.0

目录flink的三种运行模式单机模式分布式on yarn环境准备下载flinkflink配置启动测试flink的三种运行模式单机模式分布式on yarn环境准备下载flink下载地址:https://flink.apache.org/downloads.html http://mirror.bit.edu.cn/apache/flink/flink-1.8.1/flink-1.8...

2019-08-02 21:05:30 7203

转载 建设企业的数据化引擎,网易严选数据中台的经验和方法论

转自:https://www.infoq.cn/article/Zyq4a*yEI1Uz2iwHFJuF?from=timeline数据中台最早是阿里提出的,但真正火起来是 2018 年,我们能感受到行业文章谈论数据中台的越来越多。大量的互联网、非互联网公司都开始建设数据中台。为什么很多公司开始建设数据中台?尽管数据中台的文章很多,但是一千人眼里有一千个数据中台,到底什么是数据中台?数据中台包...

2019-07-30 20:40:04 7100

转载 UML示例图

2019-07-30 20:03:29 6361

转载 TiDB简介

由于目前的项目把mysql换成了TiDb,所以特意来了解下tidb。其实也不能说换,由于tidb和mysql几乎完全兼容,所以我们的程序没有任何改动就完成了数据库从mysql到TiDb的转换,TiDB 是一个分布式 NewSQL (SQL 、 NoSQL 和 NewSQL 的优缺点比较 )数据库。它支持水平弹性扩展、ACID 事务、标准 SQL、MySQL 语法和 MySQL 协议,具有数据强一致...

2019-07-27 23:34:14 6336

原创 伪分布式系列 - 第四篇 - datax环境搭建,hive导入mysql测试

目录基础环境搭建spark配置spark启动测试基础环境搭建spark配置spark启动测试

2019-07-26 23:06:03 6005

原创 伪分布式系列 - 第三篇 - spark-2.4.3环境搭建on hadoop3.2.0

目录基础环境搭建spark配置spark启动测试基础环境搭建spark配置spark启动测试

2019-07-26 23:02:46 6742

原创 伪分布式系列 - 第二篇 - hive-2.3.5环境搭建on hadoop3.2.0

目录基础以来环境搭建hive搭建hive测试基础以来环境搭建hive搭建hive测试

2019-07-25 00:08:14 6045

原创 伪分布式系列 - 第一篇 - hadoop-3.2.0环境搭建

Hadoop的三种运行模式单机模式伪分布式模式全分布式集群模式环境准备安装包下载Hadoop配置启动服务简单使用

2019-07-24 22:29:26 6390

转载 YARN Federation

介绍众所周知,YARN可扩展到数千个节点。 YARN的可伸缩性由Resource Manager确定,并且与节点数,活跃的应用程序,活跃的容器和心跳频率成比例。降低心跳可以提高可扩展性,但对利用率有害。本文档描述了一种基于联邦(federation)的方法,通过联合多个YARN子集,将单个YARN集群扩展到数万个节点。所提出的方法是将大的(10-100k节点)集群划分为称为子集群的较小单元,每...

2019-07-22 21:32:01 6016

转载 使用Eclipse Memory Analyzer Tool(MAT)分析线上故障(一) - 视图&功能篇

Eclipse Memory Analyzer Tool(MAT)是一个强大的基于Eclipse的内存分析工具,可以帮助我们找到内存泄露,减少内存消耗。 工作中经常会遇到一些内存溢出、内存泄露等问题,同时还可能导致CPU使用率也很高,因为在频繁的进行GC垃圾回收,这时候就需要分析导致问题的原因,MAT是一个比较好用的工具,但刚开始使用时对于其提供的一些功能还是不太了解,故在此总结...

2019-06-17 21:46:47 6175

转载 浅谈ROLAP、MOLAP和HOLAP区别

对没有使用过数据仓库的人,对这三个概念确实是有点混淆不清。包括我自己本身不是做数据仓库出身,所以实际上是从实践出发,理论基础是有点匮乏的。一、基本概念1. OLAPOLAP(on-Line Analysis Processing)是使分析人员、管理人员或执行人员能够从多角度对信息进行快速、一致、交互地存取,从而获得对数据的更深入了解的一类软件技术。OLAP的核心概念是“维”(di...

2019-05-21 16:44:15 5948

转载 Kylin优化-Cube裁剪优化(聚合组,联合维度,层级维度,强制维度)

随着维度数目的增加,Cuboid 的数量会爆炸式地增长。为了缓解 Cube 的构建压力,Apache Kylin 引入了一系列的高级设置,帮助用户筛选出真正需要的 Cuboid。这些高级设置包括聚合组(Aggregation Group)、联合维度(Joint Dimension)、层级维度(Hierachy Dimension)和强制维度(Mandatory Dimension)等。”众所周...

2019-04-02 20:43:38 6392

转载 权限系统设计模型分析(DAC,MAC,RBAC,ABAC)

此篇文章主要尝试将世面上现有的一些权限系统设计做一下简单的总结分析,个人水平有限,如有错误请不吝指出。术语这里对后面会用到的词汇做一个说明,老司机请直接翻到常见设计模式。用户发起操作的主体。对象(Subject)指操作所针对的客体对象,比如订单数据或图片文件。权限控制表 (ACL: Access Control List)用来描述权限规则或用户和权限之间关系的数据表...

2019-04-01 15:31:22 6624

原创 Kylin cube构建过程优化

Kylin将Cube构建任务分解为几个依次执行的步骤,这些步骤包括Hive操作、MapReduce操作和其他类型的操作。如果你有很多Cube构建任务需要每天运行,那么你肯定想要减少其中消耗的时间。下文按照Cube构建步骤顺序提供了一些优化经验。创建Hive的中间平表这一步将数据从源Hive表提取出来(和所有join的表一起)并插入到一个中间平表。如果Cube是分区的,Kylin会加上一个时...

2019-03-28 15:27:23 6409

原创 Kylin SQL 快速参考 支持JOIN LEFT JOIN操作

Apache Kylin 使用 Apache Calcite 做 SQL 解析和优化。作为一款 OLAP 引擎, Kylin 支持SELECT操作,而不支持其它操作例如INSERT,UPDATE和DELETE,因此 Kylin 的 SQL 语法是 Apache Calcite 支持语法的一个子集。本文列举了 Kylin 支持的 SQL 语法、函数以及数据类型,但可能并不完整。您可以查看...

2019-03-28 15:10:28 8611

转载 数仓建模:范式建模+维度建模

范式建模 Inmon提出的集线器的自上而下(EDW-DM)的数据仓库架构。操作型或事务型系统的数据源,通过ETL抽取转换和加载到数据仓库的ODS层,然后通过ODS的数据建设原子数据的数据仓库EDW,EDW不是多维格式的,不方便上层应用做数据分析,所以需要通过汇总建设成多维格式的数据集市层。优势:易于维护,高度集成;劣势:结构死板,部署周期较长 范式建模应用在EDW层 一个符合第三范式的关...

2019-03-28 15:08:11 7869

原创 MAC IDEA修改git的用户名和密码

问题:GIT账户的密码有更改,导致GIT拉取和提交代码报错原因:MAC对git用户和密码有记忆功能,记住的是错误的解决方案:用钥匙串去更改用户名和密码第一步:找到你的钥匙串的位置应用程序----实用工具-----双击钥匙串----右上角搜索git------双击登陆-----点击显示密码-----输入两次你的开机密码-----然后更改xxx用户名就可以了。1.2....

2019-03-01 21:09:45 11097

转载 MySQL慢日志简介及Anemometer工具介绍

MySQL 慢日志简介:原文地址:http://www.fordba.com/box-anemometer-visual-mysql-slow.htmlMySQL慢日志想必大家或多或少都有听说,主要是用来记录MySQL中长时间执行(超过long_query_time 单位秒),同时examine的行数超过min_examined_row_limit ,影响MySQL性能的SQL语句,以便D...

2019-02-01 17:51:47 6449

转载 HIVE时间操作UDF

日期函数UNIX时间戳转日期函数: from_unixtime语法:   from_unixtime(bigint unixtime[, string format])返回值: string说明: 转化UNIX时间戳(从1970-01-01 00:00:00 UTC到指定时间的秒数)到当前时区的时间格式举例:hive>   select from_unixtime(13233...

2019-01-16 20:55:26 6234

转载 HDFS高可用以及联邦HDFS集群搭建

阅读目录HDFS高可用集群搭建 安装步骤: 联邦HDFS集群搭建回到顶部HDFS高可用集群搭建hadoop2.0已经发布了稳定版本了,增加了很多特性,比如HDFS HA、YARN等。最新的hadoop-2.6.4又增加了YARN HA注意:apache提供的hadoop-2.6.4的安装包是在32位操作系统编译的,因为hadoop依赖一些C++的本地库所以如果在64位的操...

2018-12-02 15:23:09 6280

转载 HDFS 滚动升级,降级,回滚

介绍HDFS滚动升级可以升级单独的HDFS守护进程. 例如, datanode们可以独立于namenode来升级. 一个namenode也可以独立于其他的namenode们来升级. namenode们也可以独立于datanode们和journal node们升级.升级在Hadoop版本2中, HDFS支持高可用(HA)namenode服务并结合兼容性. 这两项能力使其可以在避免停机时间...

2018-12-02 14:55:14 6874

转载 Java 浅析 Thread.join()

概要本文分为三部分对 Thread.join() 进行分析:1. join() 的示例和作用2. join() 源码分析3. 对网上其他分析 join() 的文章提出疑问 1. join() 的示例和作用1.1 示例1 // 父线程2 public class Parent extends Thread {3 public void run() {...

2018-11-09 00:03:00 7654

转载 BookKeeper 设计介绍及应用

BookKeeper由yahoo于2009年创建,并在2011年开源。BookKeeper是一个可靠的日志流记录系统,用于将系统产生的日志(也可以是其他数据)记录在BookKeeper集群上,由BookKeeper这个第三方Storage保证数据存储的可靠和一致性。典型场景是系统写write-ahead log,即先把log写到BookKeeper上,再对log做处理,比如将log写到内存的数据...

2018-11-07 13:35:51 7359

转载 Apache Pulsar简介

Apache PulsarWhat is Pulsar"Pulsar is a distributed pub-sub messaging platform with a very flexible messaging model and an intuitive client API."Pulsar是pub-sub模式的分布式消息平台,拥有灵活的消息模型和直观的客户端API。Pu...

2018-11-05 20:42:12 6178

转载 Java并发之AQS详解

一、概述  谈到并发,不得不谈ReentrantLock;而谈到ReentrantLock,不得不谈AbstractQueuedSynchronizer(AQS)!  类如其名,抽象的队列式的同步器,AQS定义了一套多线程访问共享资源的同步器框架,许多同步类实现都依赖于它,如常用的ReentrantLock/Semaphore/CountDownLatch...。  以下是本文的目录大...

2018-11-04 22:16:42 5907

转载 Hadoop机架感知(rack-aware)配置

副本的存放策略又是HDFS实现高可靠性和搞性能的关键,优化的副本存放策略也正是HDFS区分于其他大部分分布式文件系统的重要特性。HDFS采用一种称为机架感知(rack-aware)的策略来改进数据的可靠性、可用性和网络带宽的利用率。大型HDFS实例一般运行在跨越多个机架的计算机组成的机群上,不同机架上的两台机器之间的通信需要经过交换机,这样会增加数据传输的成本。在大多数情况下,同一机架内的两台机器...

2018-09-15 16:27:27 6281

转载 神奇的HyperLogLog算法

基数计数基本概念基数计数(cardinality counting)通常用来统计一个集合中不重复的元素个数,例如统计某个网站的UV,或者用户搜索网站的关键词数量。数据分析、网络监控及数据库优化等领域都会涉及到基数计数的需求。 要实现基数计数,最简单的做法是记录集合中所有不重复的元素集合S_uS​u​​,当新来一个元素x_ix​i​​,若S_uS​u​​中不包含元素x_ix​i​​,则将x_ix...

2018-08-29 12:24:23 7066

转载 Java Mission Control-Java 性能分析工具

引言本文为 Java 性能分析工具系列文章第三篇,这里将介绍如何使用 Java 任务控制器 Java Mission Control 深入分析 Java 应用程序的性能,为程序开发人员在使用 Java 任务控制器的时候提供帮助。第一篇:操作系统工具,第二篇:Java 内置监控工具。JMC 是在 JAVA 7u40 发布中加入的性能监控工具。使用过 JDK 6 中 JRockit JVM 的...

2018-08-28 18:50:09 7226

转载 Apache Kylin 精确去重指标优化历程

问题背景 优化1 将精确去重指标拆分HBase列族 优化2 移除不必要的toString避免bitmap deserialize 优化3 获取bitmap的字节长度时避免deserialize 优化4 无需上卷聚合的精确去重查询优化 总结 反思 相关Kylin JIRA本文记录了我将Apache Kylin超高基数的精确去重指标查询提速数十倍的过程,大家有任何建议或者疑问欢迎讨论。...

2018-08-27 13:28:14 7503

转载 流计算框架 Flink 与 Storm 的性能对比

1. 背景Apache Flink 和 Apache Storm 是当前业界广泛使用的两个分布式实时计算框架。其中 Apache Storm(以下简称“Storm”)在美团点评实时计算业务中已有较为成熟的运用(可参考 Storm 的可靠性保证测试),有管理平台、常用 API 和相应的文档,大量实时作业基于 Storm 构建。而 Apache Flink(以下简称“Flink”)在近期倍受关注,...

2018-08-26 21:13:26 6510

转载 数据同步利器-otter的搭建使用说明

一、Otter目前支持了什么        1. 单向同步, mysql/oracle互相同步        2. 双向同步,无冲突变更        3. 文件同步,本地/aranda文件        4. 双A同步,冲突检测&冲突补救        5. 数据迁移,中间表/行记录同步        导历史表还需要程序代码实现吗? 还在用mysql的主从复制吗?...

2018-07-16 16:24:38 6690

提示
确定要删除当前文章?
取消 删除