凹谷-CSDN博客

原创 HBase RowKey设计原则（全面）

HBase的行健设计原则文章主要依据HBase官方文档和一些相关文章总结而来，可以说是比较靠谱和全面的一个rowkey设计总结。言归正传，对于关系型数据库，数据定位可以理解为“二维坐标”；但是hbase中需要四维来定位一个单元格，即[行健、列族、列限定符、时间戳] HBase中rowkey可以唯一标识一行记录，在HBase查询的时候，有以下几种方式：通过get方式，...

2020-02-18 11:17:41 395 1

原创可扩展超快OLAP引擎: Kylin

Kylin沿用了原来的数据仓库技术中的Cube概念，把无限数据按有限的维度进行“预处理”，然后将结果（Cube）加载到Hbase里，供用户查询使用。Kylin是通过空间换时间的方式，实现在亚秒级别延迟的情况下，对Hadoop上的大规模数据集进行交互式查询，Kylin通过预计算，把计算结果集保存到Hbase中，原有的基于行的关系模型被转化为基于键值对的列式存储，通过维度组合作为HBase的...

2019-04-03 12:03:43 422

原创性能、负载与压力测试概念及执行步骤

性能测试涵盖了广泛的工程评估，重点是衡量最终性能的特点性能测试的目标是识别、记录和消除系统中的瓶颈负载测试是性能测试中的一个过程。负载测试在系统中加载用户需求以测量其响应时间和稳定性。负载测试的目的是验证应用能够满足预期的性能目标，通常是在服务水平协议中指定的。（如：响应时间、吞吐量、资源利用率等指标，目标不是确定系统的失效点）负载和性能测试并不是正确架构的替代品。性...

2019-03-12 20:20:19 871

原创软件架构设计最常用的15个原则

架构原则1、N+1设计。永远不少于两个，通常三个。2、回滚设计。确保系统可以回滚到以前发不过的任何版本。3、禁用设计。能够关闭任何发布的功能。4、监控设计。在设计阶段就必须要考虑监控，而不是在实施完成之后补充。5、设计多活数据中心。不要被一个数据中心的解决方案把自己限制住。6、使用成熟的技术。只用确实好用的技术。7、异步设计。只有在绝对必要的时候才进行同步调用。8...

2019-03-07 10:38:03 493

原创了解一下什么是领导力，以及如何培养领导力

每个做技术的人都渴望成为管理者的，今天来了解一下什么是领导力，以及如何培养领导力。领导力是对组织或个人完成特定目标的影响力领导者，无论是天生的还是后天培养的，都可以做得更好，事实上，追求做得更好应该是一个终身目标。领导力可以看作一个函数，他包括个人特征、技能、经验、行动和方法。提高任何一个方面都会增强领导的能力增强领导力的第一步是要厘清现状，请下级、同级...

2019-02-27 12:58:03 1276

转载程序员2019年应该做的8件事，别再等到中年危机了～

2018年了，给自己定个小目标，不说赚它几个亿，以下8件都值得我们每个程序员去做。 1.学习一门新的不同风格的编程语言这是很需要的一件事，因为如果你只了解一种语言，它就会局限你解决问题的能力和你的职业发展。所以在新的一年，你应该花些时间学习一门新的语言，体验不同的编程风格，并学以致用。 2.提高你的已有技能如今Hibernate框架、Spring MVC...

2019-02-22 10:56:16 223

原创 Hive原理实践

Hive基本架构 Driver组件：核心组件，整个Hive的核心，该组件包括Complier（编译器）、Optimizer（优化器）和Executor（执行器），它们的作用是对Hive SQL语句进行解析、编译优化，生成执行计划，然后调用底层的MapReduce计算框架。Metastore组件：元数据服务组件，这个组件存储Hive的元数据。支持的关系型数据库有Derby和MySQL...

2019-02-21 20:27:18 652 1

原创大数据常用技术介绍-Sqoop、Flume、Kafka、MapReduce、Hive、Spark、Strom、Beam等

数据采集传输主要技术分为两类，一类是离线批处理、另一类是实时数据采集和传输离线批处理最有名的是Sqoop、实时数据采集和传输最为常用的是Flume和KafkaSqoop：一款开源的离线数据传输工具，主要用于Hadoop（Hive）与传统数据库（Mysql、Oracle）之间数据传递。 Flume：实时日志采集平台，一个高可用、高可靠、分布式的海量日志采集、聚合和传输的系统。 Kaf...

2019-02-20 15:40:27 2580

转载项目管理相关的考试认证及证书价值介绍

对于很多项目管理从业人员来说，他们可能还不知道与项目管理相关的一些考试和认证。或者还有一些人，可能只知道有美国项目管理协会的PMP考试，但却不知道国内也有项目管理方面的考试认证，而且证书价值也是很高的，今天我就给大家介绍一下。首先我用一张图来介绍和对比一下各考试认证的内容和他们的证书价值分析（这个证书价值仅是个人观点，供大家参考哦）：我们逐个再来详细分析一下各考试及证书价值：一、PMP...

2019-01-22 19:45:07 1932 1

原创 Spark Streaming 应用场景

Spark Streaming 应用场景流ETL：将数据推入下游系统之前对其进行持续的清洗和聚合，这么做通常可以减少最终数据存储中的数据量。触发器（Triggers）：实时检测行为或异常事件，及时触发下游动作，例如当一个设备接近了检测器或者基地，就会触发警报。数据浓缩：将实时数据与其他数据集连接，可以进行更丰富的分析，例如将实时天气信息与航班信息结合，以建立更好的旅行警报。复杂会话...

2019-01-22 19:39:10 971

转载《架构即未来》中最常用的15个架构原则

《架构即未来》中最常用的15个架构原则《架构即未来》这本书的第12章简单阐述了架构设计的一些常用的原则（后面章节会详细阐述）。这些原则中很多都是在架构一开始的设计中就要考虑进去的，这样在出现任何问题时，我们都能够及时的处理，和把问题影响的范围有效的缩小。否则就像我现在的项目，一开始设计时，考虑的很少，出问题时，没有做到及时的反馈，和缩小影响范围，只能在事故的代价中将所需要的原则添加进来，慢...

2019-01-22 18:53:27 322 1

原创 Spark SQL

Spark SQL：不仅是数据仓库的引擎，而且也是数据挖掘的引擎，更为重要的事Spark SQL是数据科学计算和分析引擎。Hive+Spark SQL+DataFrame组成了目前国内的大数据主流技术组合：Hive：负责低成本的数据仓库存储Spark SQL:负责高速的计算DataFrame：负责复杂的数据挖掘DataFrame与RDD的差异：RDD是以Record为单位的...

2018-12-12 20:25:21 471

原创 Docker的基本概念

虚拟化：分为硬件虚拟化和软件虚拟化，软件虚拟化又分为应用虚拟化和平台虚拟化。容器技术：属于平台虚拟化中的操作系统虚拟化。容器：又称“集装箱”，其核心技术是Cgroups和namespace。容器技术通过namespace实现资源隔离，通过Cgroups实现资源控制。Docker基本概念Docker镜像：Docker镜像是Docker整个体系中最基础的一部分，Docker镜像是容器的...

2018-12-10 20:20:51 198

原创 linux 账号与权限管理

----用户账号分类----1、用户账号：超级用户（root）、普通用户（由root创建、权限受限）、程序用户（一般不需要登录到系统，如ftp、mail等）2、UID号：root用户默认为UID为0，程序账号UID默认为1~999，普通用户默认使用1000~60000。3、用户账号文件：/etc/passwd（保存所有用户的账号基本信息）、/etc/shadow（保存各用户的账号密码信...

2018-12-06 14:59:29 226

原创 linux 常用命令总结

基本命令：hostname：查看当前主机的完整名称。hostname kgc 表示修改当前系统主机名为kgc，退出重新登录后生效。pwd：用户显示当前用户所在工作目录；ls：显示当前目录下所有文件ls -a ：显示所有文件，包括.开头的和隐藏文件 lsb_release -a 操作系统版本cat /proc/cupinfo 查询cpu信息cat /proc/mem...

2018-12-05 19:10:52 224

# 第一章 ElasticSearch入门篇## 第一节 ElasticSearch概述### 1.1ElasticSearch是一个基于Lucene的搜索服务器。它提供了一个分布式多用户能力的全文搜索引擎，基于RESTfulweb接口。ElasticSearch是用Java开发的，并作为Apache许可条款下的开放源码发布，是当前流行的企业级搜索引擎。设计用于云计算中，能够达到实时搜索，稳定...

2018-11-29 11:29:42 411

原创全文搜索引擎 ElasticSearch

ElasticSearch观念转换：索引：可以认为是数据库中的一个Schema。类型：逻辑上具有相同格式的文档集合，可以和数据库中的表概念类似。文档：对所描述的实体对象的具体实例化，可以和数据库中的行相对应。字段：以Json的键值对方式组织的多个字段。字段可以是对象类型、数组类型或者核心数据类型，字段可以与数据库列对应。集群节点类型：主节点：负责节点间集群之间的变更协调。这些变...

2018-11-27 14:22:13 222

原创流式计算引擎-Storm、Spark Streaming

目前常用的流式实时计算引擎分为两类：面向行和面向微批处理，其中面向行的流式实时计算引擎的代表是Apache Storm，典型特点是延迟低，但吞吐率也低。而面向微批处理的流式实时计算引擎代表是Spark Streaming，其典型特点是延迟高，但吞吐率也高。主流的流式数据线分四个阶段：1、数据采集：负责从不同数据源上实时采集数据，可选包括Flume以及自定义Kafka Prod...

2018-11-23 10:53:48 5111

原创 ROLAP场景下的交互式计算引擎Impala和Presto

应用于ROLAP场景下的交互式计算引擎Impala和Presto具有以下特点：1、跟Hadoop生态系统完好结合，可与Hive Metastore对接，处理hive中的表，可直接处理存储在HDFS和Hbase中的数据。2、计算与存储分析：仅仅是查询引擎，不提供数据存储服务。3、MPP架构，采用经典的MPP架构，具有良好的扩展性，能够应对TB甚至PB级数据交互式查询需求；4、嵌套...

2018-11-22 17:18:59 1211

原创批处理引擎MapReduce

MapReduce是一个典型的分布式批处理引擎，具有良好的扩展性与容错性以及高吞吐率等。编程思想：核心思想是分而治之，即将一个分布式计算过程拆解成两个阶段，Map阶段和Reduce阶段。MapReduce的编程组件：1.Mapper：Mapper中封装了应用程序的数据处理逻辑，为了简化接口，MapReduce要求所有存储在底层分布式文件系统上的数据均要解释成<key,value&...

2018-11-22 12:44:28 1307

原创资源管理与调度系统YARN

YARN作为一个通用的资源管理系统，目标是将短作业和长服务混合部署到一个集群中，并为他们提供统一的资源管理和调度功能，概括起来主要解决以下两个问题：1.提高集群资源利用率，2.服务自动化部署。一、YARN的基本架构：YARN总体上采用master/slave架构，ResourceManager为master，NodeManager为slave，ResourceManager负责对各个Nod...

2018-11-21 17:27:21 1033

原创分布式协调服务ZooKeeper

分布式协调服务ZooKeeper分布式协调服务是分布式应用中不可缺少的，通常担任协调角色，比如leader选举、负载均衡、服务发现、分布式队列和分布式锁Zookeeper数据模型：一、层级命名空间1、data：每个znode拥有一个数据域，记录用户数据，该节点的数据类型为字节数组；2、type：zonde类型，具体分为persistent(持久化节点)、ephemeral（临时节...

2018-11-21 11:15:52 259

原创 HBSAE笔记-NoSQL 非关系型数据库

Hbase 使用场景：有数十亿列，同时在很短时间内有数以千计的读写数据操作每天写入量巨大，而相对读数量较小的应用，不需要复杂查询条件来查询数据的应用，HBase只支持基于rowkey的查询读写流程：clinet-wal-memstore-Hfile 概念：Hmaster、RegionServer、Region、HFile集群配置：CPU： 8~24核、电源：恒定，散热好、内存：8~48...

2018-11-21 09:51:10 305

原创微服务框架SpringBoot、SpringCloud

微服务架构（一般采用AP架构）A：服务可用性P：分区容错C：数据的强一致性领域驱动设计：通过代码和数据分析找到合理的切分点，并通过数据分析来判断服务的划分边界和划分粒度。微服务核心：Docker为容器中心，DevOps是一种部署手段或理念（DevOps就是开发（Development）和运维（Operations）这两个领域的合并）微服务架构中的三大难题：服务故障的传播性、...

2018-11-20 19:36:24 268

原创分布式消息队列Kafka

基本概念主题：好比数据库表，或者系统中文件夹分区：一个主题可以分若干分区，同一个分区内可以保证有序偏移量：一个不断递增的整数值，每个分区的偏移量是唯一的broker：一个独立的kafka服务器MirrorMaker工具：多集群间消息复制Zookeeper：保存集群元数据和消费者信息，broker和主题元数据、消费者元数据分区偏移量硬件选择磁盘吞吐量、磁盘容量、内存...

2018-11-20 19:25:38 193

原创 Spark

spark运行的中间数据是放到内存中。spark在内存中运行是MapReduce的100多倍，在磁盘上运行是MapReduce的10多倍yarn-site.xml 查看yarn任务web页面端口RDD：弹性分布式数据集，spark将Rdd划分为若干子集，每个子集称为一个分区，分区是RDD的基本组成单位创建RDD的三种方式：1、基于集合创建2、基于外部存储创建，textFil...

2018-11-20 19:19:47 222

原创 Hive-数据仓库

交互方式-用户接口：CLI（linux命令行）、WUI（hive web页面）、Client（连接远程服务HiveServer2，eg：JDBC、ODBC）Hive命令行模式：1、进入bin 执行./hiv2、配置Hive环境变量，直接执行命令：hive --service cli 或 hiveHive的web模式：执行hive -service hwi 启动后访问http...

2018-11-20 19:16:02 537

原创大数据处理Pig

Pig用于处理大规模数据的高级查询语言由两部分组成：用于描述数据流的语言Pig Latin和执行Pig Latin程序的执行环境，使用Pig Latin可以对数据进行加载、排序、过滤、求和、分组、关联、存储操作等。应用场景：以数据流水线的方式考虑问题，并需要对作业运行方式更细粒度的控制。 Pig运行模式：1、本地模式：grunt shell 方式、脚本文件方式、嵌入式程序方式2、M...

2018-11-20 19:13:48 862

原创大数据工作流Oozie

提供Hadoop任务的调度和管理，不仅可以管理MapReduce任务，还可以管理pig、hive、sqoop、spark等任务，Oozie就是一个基于hadoop的工作流引擎。两个主要组件：工作流定义组件:一系列Action个的列表（Action就是一个任务节点，eg：MapReduce任务、pig任务、hive任务等）调度器组件：可调度的WorkFlow（workflow就是定义一个D...

2018-11-20 19:11:45 880 1

原创分布式结构化存储系统Hbase

Hbase数据模型分为逻辑数据模型和物理数据模型。1、逻辑数据模型：namespace（数据库）和table（表）hbase：系统内建表，包括namespace和meta表；default：用户建表未制定namespace的表都创建在此；Hbase表有一系列行构成，每行数据有一个rowkey以及若干column family构成，每个cloumn family 可包括无限列。（ro...

2018-11-20 19:07:24 381

原创大数据存储HDFS详解

数据序列化FaceBook Thrift（具体序列化和RPC两个功能）、Google Protocol Buffers（ProtoBuf）（只有序列化功能，不具备RPC功能）、Apache Avro（具体序列化和RPC两个功能）序列化框架对比：解析速度时间由小到大：protobuf、thrift、Avro 序列化大小，由小到...

2018-11-20 15:26:34 7224

原创大数据收集层常用技术-Sqoop、Flume、Kafka

Sqoop：关系型数据收集使用场景：数据迁移、可视化分析结果、数据增量导入基本架构：存在两个版本，1.4.x和1.99.x，通常简称为sqoop1和sqoop2sqoop1:Connector定制麻烦、客户端软件繁多、安全性差sqoop2：引入了sqoop server，将所有管理工作都放到server端，用户可以通过客户端命令或者浏览器随时随处使用sqoop。使用方式：sqoo...

2018-11-20 10:08:36 3617

原创企业级大数据技术框架（六层大数据技术体系）

1、数据收集层：分布式、异构性、多样化、流式产生主要由关系型和非关系型数据收集组件，分布式消息队列构成。Sqoop/Canal：关系型数据收集和导入工具，是连接关系型数据库和Hadoop的桥梁，Sqoop可将关系型数据库的数据全量导入Hadoop，反之亦然。而Canal可用于实时数据的增量导入Flume：非关系型数据收集工具，主要是流式日志数据，可近实时收集，经过滤，聚集后加载到HDF...

2018-11-19 13:32:52 4296 1

转载 mysql主从复制（超简单）

mysql主从复制（超简单）怎么安装mysql数据库，这里不说了，只说它的主从复制，步骤如下：1、主从服务器分别作以下操作： 1.1、版本一致 1.2、初始化表，并在后台启动mysql 1.3、修改root的密码2、修改主服务器master: #vi /etc/my.cnf [mysqld] log-bin=my

2016-01-22 11:03:11 287

转载 Linux配置防火墙，开启80端口、3306端口

vi /etc/sysconfig/iptables -A INPUT -m state –state NEW -m tcp -p tcp –dport 80 -j ACCEPT（允许80端口通过防火墙） -A INPUT -m state –state NEW -m tcp -p tcp –dport 3306 -j ACCEPT（允许3306端口通过防火墙）特别提示：很多网友

2016-01-22 11:01:51 330

转载 Nginx负载均衡（主备）+Keepalived

Nginx负载均衡器的优点:实现看弹性化操作的架构，压力增大的时候可以临时添加后端Web服务器；upstream具有负载均衡能力(默认使用轮询)，可以自动判断下面的机器，并且自动踢出不能正常提供服务的机器；Keepalvied加Nginx监测脚本可保证单个nginx负载均衡器的有效性,避免单点故障系统两台Nginx：CentOS6.7 x86

2016-01-22 10:57:19 578

转载负载均衡之Nginx的简介

什么是Nginx Nginx是一款轻量级的Web 服务器/反向代理服务器及电子邮件（IMAP/POP3）代理服务器，并在一个BSD-like协议下发行。由俄罗斯的程序设计师Igor Sysoev所开发，供俄国大型的入口网站及搜索引擎Rambler（俄文：Рамблер）使用。事实上nginx的并发能力确实在同类型的网页服务器中表现较好，中国大陆使用nginx网站用户有：百度

2016-01-22 10:56:10 368

转载负载均衡之Nginx的安装

环境准备如果要使用Nginx的常用功能，那么首先需要确保该Linux操作系统上至少安装了如下软件。Linux上有许多软件安装方式，yum只是其中比较方便的一种，其他方式这里不再赘述。这些软件均采用该方式安装（1）GCC编译器 GCC（GNU CompilerCollection）可用来编译C语言程序。Nginx不会直接提供二进制可

2016-01-22 10:55:20 254

数据库设计指南及注意事项

数据库设计指南数据库设计的注意事项，考虑方向

2009-11-30

CXF 经典开发例子

使用Spring+CXF开发WebService Apache CXF 提供方便的Spring整合方法，可以通过注解、Spring标签式配置来暴露Web Services和消费Web Services

2010-12-22

linux mysql 安装文档

linux mysql 安装文档，包括linux防火墙端口的开放，主从数据库复制

2016-01-22

JSF 入门实例代码

JSF 项目入门很好的资料，对初学jsf 的朋友很有帮助对个人入门帮助很大

2009-11-19

基于asp.net MVC的专业OA系统

项目描述：OA办公系统基于B/S架构设计。包括文件管理、共享下载、消息管理、公文流传、通知管理、内部论坛、人力资源管理、资产管理等。文件管理:接收文件传送文件文件操作记录共享下载:查看共享上传共享管理共享消息管理:接收消息发送消息部门群发发送记录我的群组公文流转:接收公文发送公文发送记录通知管理:查看通知发布通知通知管理新闻管理:浏览新闻发布新闻内部论坛:查看帖子发布帖子头像管理工作日志:提交日志日志记录批阅日志日志汇总日程计划:撰写日程我的日程撰写计划我的计划工作总结:撰写月总结记录.管理撰写年度总结记录.管理总结分类审批管理:提交审批办理审批申请记录人力资源:在线考勤考勤记录所有考勤部门考勤通讯录:单位通讯录提交办公通讯录电子邮件发送邮件资产管理资产列表

2009-12-15

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

数据库设计指南及注意事项

CXF 经典开发例子

linux mysql 安装文档

JSF 入门实例 代码

基于asp.net MVC的专业OA系统

hadoop培训资料

ZooKeeper学习笔记

搭建jpa 所需的jar包

struts2_spring_hibernate

精通struts.基于MVC的.java.web设计与开发

jquery 稀有资源

空空如也

JSF 入门实例代码