自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(29)
  • 收藏
  • 关注

转载 Apache Kylin 入门 2 - 原理与架构

Apache Kylin 入门系列目录Apache Kylin 入门 1 - 基本概念 Apache Kylin 入门 2 - 原理与架构 Apache Kylin 入门 3 - 安装配置参数详解 Apache Kylin 入门 4 - 构建 Model Apache Kylin 入门 5 - 构建 Cube工作原理简单来说,Kylin 的核心思想是预计算(利用空间换时间),即对...

2019-04-29 19:06:53 163

转载 Kylin工作原理、体系架构

核心思想:预计算。  对多维分析可能用到的度量进行预计算,将计算好的结果保存成Cube,并存在HBase中,供查询时直接访问  将高复杂度的聚合运算、多表连接……操作转换成对预计算结果的查询。决定了Kylin拥有很好的快速查询、高并发能力  理论基础:空间换时间Cuboid:Kylin中将维度任意组合成为一个CuboidCube:Kylin中将所有维度组合成为一个Cube...

2019-04-29 18:54:21 419

转载 DB、ETL、DW、OLAP、DM、BI关系结构

在此大概用口水话简单叙述一下他们几个概念:(1)DB/Database/数据库——这里一般指的就是OLTP数据库,在线事物数据库,用来支持生产的,比如超市的买卖系统。DB保留的是数据信息的最新状态,只有一个状态!比如,每天早上起床洗脸照镜子,看到的就是当时的状态,至于之前的每天的状态,不会出现的你的眼前,这个眼前就是db。(2)DW/Data Warehouse/数据仓库——这里保存的是...

2019-04-28 23:08:55 192

转载 苏宁OLAP架构设计

一. 功能综述OLAP引擎为存储和计算二合一的引擎,自身内部涵盖了对数据的管理以及提供查询能力。底层数据完全规划在引擎内部,外部系统不允许直接操作底层数据,而是需要通过暴露出来的接口来读写引擎内部数据。目前整体来说OLAP功能由两部分组成:数据管理,查询引擎。1.1 数据管理引擎中数据核心概念包括:事实表,维度表,模型表,加速表,其中事实表和维度表统称为Dataset表。数据操作包...

2019-04-28 23:03:44 679

转载 多维交叉分析

我们在进行数据分析的时候,大部分时间都在使用趋势分析、比较分析、细分分析这三类方法,但其实还有一个方法我们也会经常使用——交叉分析,尤其是在排查数据异常的问题时,交叉分析就能展现其强大的威力。另外要跟大家说声抱歉的是博客的更新频率可能没有那么频繁了,但是尽量每个月至少能发布一篇,希望文章的质量有所保证,还是欢迎大家留言讨论,能够发起一些有趣的话题,一起拓展在网站数据分析方面的思路。什么是交叉分...

2019-04-28 22:09:42 2350

转载 数据仓库的多维数据模型

可能很多人理解的数据仓库就是基于多维数据模型构建,用于OLAP的数据平台,通过上一篇文章——数据仓库的基本架构,我们已经看到数据仓库的应用可能远不止这些。但不得不承认多维数据模型是数据仓库的一大特点,也是数据仓库应用和实现的一个重要的方面,通过在数据的组织和存储上的优化,使其更适用于分析型的数据查询和获取。多维数据模型的定义和作用  多维数据模型是为了满足用户从多角度多层次进行数据查询和分...

2019-04-28 22:07:28 873

转载 网站数据分析

数据立方体与OLAP24 条回复  前面的一篇文章——数据仓库的多维数据模型中已经简单介绍过多维模型的定义和结构,以及事实表(Fact Table)和维表(Dimension Table)的概念。多维数据模型作为一种新的逻辑模型赋予了数据新的组织和存储形式,而真正体现其在分析上的优势还需要基于模型的有效的操作和处理,也就是OLAP(On-line Analytical Processi...

2019-04-28 22:06:12 441

转载 软件工程数据流图的画法

摘自百度经验系统流程图是在系统分析员在做系统构架阶段,或者说,在接触实际系统时,对未来构建的信息处理系统的一种描述。这种描述是相对简单且完全的,涉及到未来系统中使用的处理部件,如磁盘,显示器,用户输入以及处理过程的先后顺序表示等,标准的系统流程图应该有10种图元,具体的有国家标准。当然,系统流程图还可以用来表示现有的信息系统处理过程涉及的各个部件以及次序。系统流程图是描绘物理系统的传统工具.它...

2019-04-27 19:55:49 17931

转载 数据流图

数据流图(DFD- Data Flow Diagram)让系统分析者弄清楚“做什么”的问题,其重要性就不言而喻了。那么我们怎么画数据流图呢?数据流图与系统流程图又有什么区别呢?步骤1数据流图里包含的内容 数据流图描述的是系统的逻辑模型,图中没有任何具体的物理元素,只是描绘信息在系统中流动和处理的情况。因为数据流图是逻辑系统的图形表示,即使不是专业的计算机技术人员也能容易理解。 ...

2019-04-27 19:28:56 2929 1

转载 谈谈高并发系统的限流

开涛大神在博客中说过:在开发高并发系统时有三把利器用来保护系统:缓存、降级和限流。本文结合作者的一些经验介绍限流的相关概念、算法和常规的实现方式。缓存缓存比较好理解,在大型高并发系统中,如果没有缓存数据库将分分钟被爆,系统也会瞬间瘫痪。使用缓存不单单能够提升系统访问速度、提高并发访问量,也是保护数据库、保护系统的有效方式。大型网站一般主要是“读”,缓存的使用很容易被想到。在大型“写”系统中...

2019-04-22 18:48:45 155

转载 Windows File Monitoring System Using Windows API Hooking

https://www.codeproject.com/Articles/30537/%2FArticles%2F30537%2FWindows-File-Monitoring-System-Using-Windows-API-H Introduction This Windows file monitoring system aims at providing securit...

2019-04-20 22:20:17 207

转载 C/C++ 汉字转拼音

引言前些天看到公司的代码,一个中文转换成拼音,居然写了千把行,让我很是汗颜,网上查了好多相关的资料,突然发现,大多都是千把行的,这让我根本按耐不住修改的冲动,于是就有这篇文章。版权所有:CSND_Ayo,转载请注明出处:http://blog.csdn.net/csnd_ayo简介我使用的是C++ POSIX标准写的,应该支持跨平台(我只在window下测试过)把原来的千...

2019-04-17 17:42:10 1627 2

转载 汉字转拼音的vc++程序源代码

#include "StdAfx.h"#include "MyChiToLetter.h"// Download by http://www.codefans.netCMyChiToLetter::CMyChiToLetter(){ m_blnSimaple=FALSE; m_blnFirstBig=TRUE; m_blnAllBiG=TRUE; m_LetterEnd=FALS...

2019-04-17 17:41:19 2958

转载 分布式调度框架大集合

分布式任务调度框架1、什么是分布式任务调度?2、常见的分布式任务调度框架有哪些?3、分布式任务调度框架的技术选型?4、分布式任务调度框架的安装与使用?大对比表格:https://pan.baidu.com/s/1CZAjTFqIhinzlVLnrrMUKQ分布式任务调度,三个关键词:分布式、任务调度、配置中心。分布式:平台是分布式部署的,各个节点之间可以无状态和无限的水...

2019-04-15 09:50:41 1750

转载 Nginx模块开发入门

Nginx是当前最流行的HTTP Server之一,根据W3Techs的统计,目前世界排名(根据Alexa)前100万的网站中,Nginx的占有率为6.8%。与Apache相比,Nginx在高并发情况下具有巨大的性能优势。Nginx属于典型的微内核设计,其内核非常简洁和优雅,同时具有非常高的可扩展性。Nginx最初仅仅主要被用于做反向代理,后来随着HTTP核心的成熟和各种HTTP扩展模块的丰富...

2019-04-14 21:21:06 206

转载 你的数据分析框架搭建起来了吗

数据分析作为运营人员必备的核心技能,对职业发展起着尤为重要的作用。本文将基于基于业务场景,分享几种基础的数据分析框架和方法,系统化的进行数据分析。无论是产品、还是运营,都需要具备良好的数据分析能力,对用户行为数据和业务数据,进行分析、评估甚至预测。本文通过分享三种常见的数据分析框架,帮助我们更系统的进行数据分析,发现并解决产品暴露出的问题,从而更高效的完成工作。...

2019-04-14 20:35:45 358

转载 数据分析的三大框架:底层技术、分析建模、工具选择

在搭建知识大厦之前,先需要建立知识的框架,然后才能高效的填充知识。所以本文主要跟大家分享如何建立框架。先看下数据科学的世界观,参考下面的思维导图:有了世界观,我们可以开始搭建自己的知识大厦了。在搭建知识大厦之前,先需要建立知识的框架,然后才能高效的填充知识。所以今天我们先建立框架。数据分析的三大框架数据科学的框架分为三部分:底层技术框架/数据分析框架/工具选择框架,接下...

2019-04-14 20:28:35 1255

转载 使用memc-nginx和srcache-nginx模块构建高效透明的缓存机制

为了提高性能,几乎所有互联网应用都有缓存机制,其中Memcache是使用非常广泛的一个分布式缓存系统。众所周知,LAMP是非常经典的Web架构方式,但是随着Nginx的成熟,越来越多的系统开始转型为LNMP(Linux+Nginx+MySQL+PHP with fpm),这是因为Nginx采用基于事件机制的I/O多路复用思想设计,在高并发情况下其性能远远优于默认采用prefork模式的Apache...

2019-04-11 22:43:10 120

转载 VC中实现历史记录的全面清除

清除历史记录的文章很多,但是一般都不够全面。作者经过整理和收集一些资料,加以融合。得到了一个较全面的历史记录清除方法。 前言: 在本人用完计算机之后,往往不希望别人发现你做过什么,和浏览过什么网址。(特别是和多人共用一台机子时)。当然,你可以手工清理那些记录。 但那是多么繁杂的一件事啊。 我想没人愿意那样做。于是,我想到用一个软件来一次性完成上述工作。 清除...

2019-04-08 22:24:54 265

转载 一致性hash在分布式系统中的应用

场景如果要设计一套KV存储的系统,用户PUT一个key和value,存储到系统中,并且提供用户根据key来GET对应的value。要求随着用户规模变大,系统是可以水平扩展的,主要要解决以下几个问题。系统是一个集群,包含很多节点,如何解决用户数据的存储问题?保证用户的数据尽可能平均分散到各个节点上。 如果用户量增长,需要对集群进行扩容,扩容完成后如何解决数据重新分布?保证不会出现热点数据节...

2019-04-04 19:00:10 157

转载 一台电脑同时使用GitLab和GitHub仓库

1. 用Git生成两把钥匙;#GitHub的钥匙# kingboy @ KingBoydeMacBook-Pro in ~/.ssh [7:50:33]➜ ssh-keygen -t rsa -C "kingboy@163.com"Generating public/private rsa key pair.Enter file in which to save the ke...

2019-04-02 19:39:51 359

转载 如何在同一台电脑上使用github和gitlab

前言在同一台电脑上使用github和gitlab,主要的思想就是使用不同的仓库时,切换成不同的账号。不同账号的sshKey分别对应github和gitlab。接下来跟着我看看怎么做吧_一、生成ssh密钥这里我们要做的事情就是分别对githubn和gitlab生成对应的密钥(默认情况下本地生成的秘钥位于/Users/用户名/.ssh/),并且配置git访问不同host时访问不同的密钥,流...

2019-04-02 19:30:26 235

转载 Solr与MySQL查询性能对比

测试数据量:10407608Num Docs: 10407608在项目中一个最常用的查询,查询某段时间内的数据,SQL查询获取数据,30s左右SELECT * FROM `tf_hotspotdata_copy_test` WHERE collectTime BETWEEN '2014-12-06 00:00:00' AND '2014-12-10 21:31:55';对coll...

2019-04-02 19:06:40 696

转载 19款最好用的免费数据挖掘工具大汇总(干货)

数据在当今世界意味着金钱。随着向基于app的世界的过渡,数据呈指数增长。然而,大多数数据是非结构化的,因此需要一个过程和方法从数据中提取有用的信息,并将其转换为可理解的和可用的形式。数据挖掘或“数据库中的知识发现”是通过人工智能、机器学习、统计和数据库系统发现大数据集中的模式的过程。免费的数据挖掘工具包括从完整的模型开发环境如Knime和Orange,到各种用Java、c++编写的库,最常...

2019-04-02 14:44:20 6923

转载 一个资深数据人对数据挖掘解读

在银行做了两年的数据分析和挖掘工作,较少接触互联网的应用场景,因此,一直都在思考一个问题,“互联网和金融,在数据挖掘上,究竟存在什么样的区别”。在对这个问题的摸索和理解过程中,发现数据挖掘本身包含很多层次。并且模型本身也是存在传统和时髦之分的。本文就想聊聊这些话题。作者:来源:36大数据|2017-02-27 16:30收藏分享在银行做了两年的数据分析和挖掘工作,较少接触...

2019-04-02 14:35:48 260

转载 基于Hadoop架构的可视化大数据挖掘建模平台

大数据挖掘建模平台( 简称HB)是一套可定制的基于Hadoop架构的可视化数据挖掘建模平台,通过企业数据挖掘应用工具化的模式,使数据应用开发的速度更快,成本更低,让企业数据挖掘应用更简单。通过帮助中小企业挖掘各种市场活动和企业内部运作可能带来的收益,从而不断的发现新的收益增长点。 大数据挖掘应用主要包括三大模块: ETL数据整合模块、大数据挖掘模块和结果展现模块,其中大数据挖掘建模是整个应用的核心...

2019-04-02 14:27:13 5004

转载 大数据挖掘方案

概述spark是实时大数据分析、挖掘的流行方案,hadoop是大数据存储和运行的流行方案,本demo主要表述用spark + hadoop如何做大数据挖掘的通用方案,包含了,包括了环境资源整合、spark和hadoop的整合,各部分模块的关系,并给出了可用的java 代码框架,和可运行的demo代码。详细代码下载:http://www.demodashi.com/demo/10153....

2019-04-02 12:51:29 357

转载 大数据架构与模式(三)理解大数据解决方案的架构层

摘要:大数据解决方案的逻辑层可以帮助定义和分类各个必要的组件,大数据解决方案需要使用这些组件来满足给定业务案例的功能性和非功能性需求。这些逻辑层列出了大数据解决方案的关键组件,包括从各种数据源获取数据的位置,以及向需要洞察的流程、设备和人员提供业务洞察所需的分析。概述这个 “大数据架构和模式” 系列的 第 2 部分 介绍了一种评估大数据解决方案可行性的基于维度的方法。如果您已经使用上一...

2019-04-02 12:06:28 428

转载 数据库索引的作用和优点缺点以及索引的11种用法

为什么要创建索引呢?这是因为,创建索引可以大大提高系统的性能。第一,通过创建唯一性索引,可以保证数据库表中每一行数据的唯一性。第二,可以大大加快 数据的检索速度,这也是创建索引的最主要的原因。第三,可以加速表和表之间的连接,特别是在实现数据的参考完整性方面特别有意义。第四,在使用分组和排序 子句进行数据检索时,同样可以显著减少查询中分组和排序的时间。第五,通过使用索引,可以在查询的过程中...

2019-04-01 18:41:38 1024

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除