- 博客(13)
- 资源 (23)
- 收藏
- 关注
原创 Cassandra 数据模型
介绍Row在Cassandra里面, name/value的对就是columns;每个拥有一系列columns的实体叫做rows;row的 unique identifier叫做row key或者primary key。在Cassandra中,如果有些column没有value,则不会被保存下来。Wide row一个wide row表示这个row包含了许多columns。Cassandra使用一个特
2017-11-15 17:19:19 963
原创 本地服务器安装 GITLAB 服务
安装安装依赖> sudo apt-get install -y curl openssh-server ca-certificates安装邮件系统> sudo apt-get install -y postfix安装gitlab> curl https://packages.gitlab.com/install/repositories/gitlab/gitlab-ee/script.deb.sh
2017-11-15 09:07:20 1396
原创 安装 cassandra,使用基本的cqlsh
安装> wget http://mirrors.hust.edu.cn/apache/cassandra/3.11.1/apache-cassandra-3.11.1-bin.tar.gz> tar -zxvf apache-cassandra-3.11.1-bin.tar.gzCassandra目录解释bin:一些可执行的命令,包括cqlsh和nodetool。nodetool可以用来检查一个
2017-11-13 16:53:32 5281
转载 分布式系统 CAP理论
CAP起源CAP原本是一个猜想,2000年PODC大会的时候大牛Brewer提出的,他认为在设计一个大规模可扩放的网络服务时候会遇到三个特性:一致性(consistency)、可用性(Availability)、分区容错(partition-tolerance)都需要的情景,然而这是不可能都实现的。之后在2003年的时候,Mit的Gilbert和Lynch就正式的证明了这三个特征确实是不可以兼得的。
2017-11-10 13:41:09 634
转载 cassandra 架构实现
cassandra 架构所有系统最开始都是centralized。但是有很多缺点,比如单机的处理能力不够。Centralized database如下图: 所以出现了分布式的数据库。如下图: Partitioning的方式有range partitioning, list partitioning, hash partitioning。其中hash partitioning使用最多。如下图,数据
2017-11-09 15:32:40 2444
原创 数据库 规范
一般原则建议使用使用一致的、叙述性的名称。灵活使用空格和缩进来增强可读性。存储符合ISO-8601标准的日期格式(YYYY-MM-DD HH:MM:SS.SSSSS)。最好使用标准SQL函数而不是特定供应商的函数以提高可移植性。保证代码简洁明了并消除多余的SQL——比如非必要的引号或括号,或者可以推导出的多余WHERE语句。必要时在SQL代码中加入注释。优先使用C语言式的以/开始以/结束
2017-11-08 13:46:22 270
原创 Cassandra
Cassandra利用点对点模型,其消除了单点故障可能性,从而帮助我们在机架故障甚至是网络整体下线的情况下得以幸存。我们能够在无需影响用户体验的情况下,顺利处理整体数据中心故障。只有能够应对故障的分布式系统才是一套拥有出色设计水平的分布式系统,而在Cassandra的帮助下,我们能够承受各类意外状况,并将应对机制纳入数据库架构及功能当中。Cassandra使用的数据模型对于关系数据库管理员来说并不陌
2017-11-07 14:11:32 540
原创 Hadoop 2.8 集群的安装
安装单个hadoop安装必备库> sudo apt-get install ssh > sudo apt-get install rsync安装hadoop> wget http://mirrors.hust.edu.cn/apache/hadoop/common/hadoop-2.8.2/hadoop-2.8.2.tar.gz> tar -zxvf hadoop-2.8.2.tar.gz >
2017-11-07 10:15:15 353
转载 SparkSQL – Join分析
Join是数据库查询永远绕不开的话题,传统查询SQL技术总体可以分为简单操作(过滤操作-where、排序操作-limit等),聚合操作-groupBy以及Join操作等。其中Join操作是其中最复杂、代价最大的操作类型。另外,从业务层面来讲,用户在数仓建设的时候也会涉及Join使用的问题。通常情况下,数据仓库中的表一般会分为”低层次表”和“高层次表”。所谓”低层次表”,就是数据源导入数仓之后直接生成
2017-11-06 14:34:03 551
转载 SparkSQL – Catalyst
CatalystCatalyst是SparkSQL的优化器系统,其设计思路基本都来自于传统型数据库,而且和大多数当前的大数据SQL处理引擎设计基本相同。SQL优化器核心执行策略主要分为两个大的方向:基于规则优化(RBO)以及基于代价优化(CBO),基于规则优化是一种经验式、启发式地优化思路,更多地依靠前辈总结出来的优化规则,简单易行且能够覆盖到大部分优化逻辑,但是对于核心优化算子Join却显得有点力
2017-11-06 10:41:42 788
转载 SparkSQL - DataFrame介绍
SparkSQL 体系结构SparkSQL体系结构如下图所示,整体由上到下分为三层:编程模型层、执行任务优化层以及任务执行引擎层。SparkSQL编程模型可以分为SQL和DataFrame两种。执行计划优化又称为Catalyst,该模块负责将SQL语句解析成AST(逻辑执行计划),并对原始逻辑执行计划进行优化,优化规则分为基于规则的优化策略和基于代价的优化策略两种,最终输出优化后的物理执行计划。
2017-11-03 11:10:21 517
原创 Spark SQL
介绍结构化数据是指任何有结构信息的数据,所谓结构信息,就是每条记录共用的已知的字段集合。。 当数据符合这样的条件时, Spark SQL 就会使得针对这些数据的读取和查询变得更加简单高效。Spark SQL 提供了以下三大功能: 1. Spark SQL 可以从各种结构化数据源(例如 JSON、 Hive、 Parquet 等)中读取数据。 2. Spark SQL 不仅支持在 Spark 程
2017-11-02 15:07:53 807
原创 Spark调优与调试
SparkConfSpark 中最主要的配置机制是通过 SparkConf 类对 Spark 进行配置。在创建 SparkContext 之前,需要创建出一个 SparkConf 的实例。conf = SparkConf()conf.set("spark.app.name", "My Spark App")conf.set("spark.master", "local[4]")conf.set
2017-11-01 15:54:35 1458
算法图解 - 算法的基本操作
2018-06-11
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人