自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(122)
  • 收藏
  • 关注

转载 Kylin的简介与安装部署

一.Kylin的概述官方网址:http://kylin.apache.org/cn/ Apache Kylin™是一个开源的分布式分析引擎,提供Hadoop/Spark之上的SQL查询接口及多维分析(OLAP)能力以支持超大规模数据,最初由eBay Inc. 开发并贡献至开源社区。它能在亚秒内查询巨大的Hive表。二.Kylin的安装1.安装环境准备1)...

2018-12-23 22:59:00 457

转载 CDH搭建Hadoop集群(Centos7)

一、说明节点(CentOS7.5)Server || AgentCPUnode11Server || Agent4Gnode12Agent2Gnode13Agent2G二、系统环境搭建1、网络配置(所有节点)1.设置主机名和IP2.配置/etc/hosts IP和主机名...

2018-12-23 22:38:00 292

转载 Ubuntu安装VirtualBox以及CentOS7.5联网设置

一.virtualBox的安装官方Liunx版本下载地址:https://www.virtualbox.org/wiki/Linux_Downloads这里选择下载ubuntu 16.04 AMD64 ,下载出来的deb格式 直接双击输入用户密码安装完成即可,启动VirtualBox报错如下信息:如果是首次安装virtualbxo的时候出现上述情况,则可能是电...

2018-12-15 00:30:00 295

转载 ubuntu的常用liunx命令

一.基本命令1.查看Ubuntu版本$ lsb_release -aNo LSB modules are available.Distributor ID: UbuntuDescription: Ubuntu 16.04.5 LTSRelease: 16.04Codename: xenial$ cat /etc/issueU...

2018-11-29 13:45:00 201

转载 Flink(三)Flink开发IDEA环境搭建与测试

一.IDEA开发环境1.pom文件设置 <properties> <maven.compiler.source>1.8</maven.compiler.source> <maven.compiler.target>1.8</maven.compiler.target> ...

2018-10-21 14:47:00 539

转载 Flink(二)CentOS7.5搭建Flink1.6.1分布式集群

一.Flink的下载安装包下载地址:http://flink.apache.org/downloads.html ,选择对应Hadoop的Flink版本下载[admin@node21 software]$ wget http://mirrors.tuna.tsinghua.edu.cn/apache/flink/flink-1.6.1/flink-1.6.1-bin-...

2018-10-09 17:18:00 242

转载 Flink(一)Flink的入门简介

一.Flink的引入 这几年大数据的飞速发展,出现了很多热门的开源社区,其中著名的有Hadoop、Storm,以及后来的Spark,他们都有着各自专注的应用场景。Spark掀开了内存计算的先河,也以内存为赌注,赢得了内存计算的飞速发展。Spark的火热或多或少的掩盖了其他分布式计算的系统身影。就像Flink,也就在这个时候默默的发展着。在国外一些社区,有...

2018-10-08 19:09:00 490

转载 Storm(三)Storm的原理机制

一.Storm的数据分发策略1. Shuffle Grouping随机分组,随机派发stream里面的tuple,保证每个bolt task接收到的tuple数目大致相同。 轮询,平均分配2. Fields Grouping按字段分组,比如,按"user-id"这个字段来分组,那么具有同样"user-id"的 tuple 会被分到相同的Bolt里的一个task, 而不...

2018-09-22 13:27:00 205

转载 Docker 图形化页面管理工具使用

一.Docker图形化工具 docker 图形页面管理工具常用的有三种,DockerUI ,Portainer ,Shipyard 。DockerUI 是 Portainer 的前身,这三个工具通过docker api来获取管理的资源信息。平时我们常常对着shell对着这些命令行客户端,审美会很疲劳,如果有漂亮的图形化界面可以直观查看docker资源信息,也是非常方便的。...

2018-09-21 16:52:00 171

转载 Docker 简介与shell操作使用

一.Docker概述1.Docker简介 Docker是一个开源的应用容器引擎;是一个轻量级容器技术;Docker支持将软件编译成一个镜像;然后在镜像中各种软件做好配置,将镜像发布出去,其他使用者可以直接使 用这个镜像;运行中的这个镜像称为容器,容器启动是非常快速的。对比传统虚拟机总结:2.Docker术语docker主机(Host):安装了D...

2018-09-17 00:00:00 354

转载 Spring Boot 入门案例与配置说明

一.Spring Boot简介官网地址:http://spring.io/projects/spring-bootSpring Boot可以轻松创建可以运行的独立的,生产级的基于Spring的应用程序。我们对Spring平台和第三方库进行了一种自以为是的观点,这样您就可以轻松上手了。大多数Spring Boot应用程序只需要很少的Spring配置。您可以使用Spring ...

2018-09-14 23:04:00 159

转载 项目管理工具Maven的安装与使用

一.Maven的简介1.什么是maven是Apache下的一个开源的项目,是纯java编写,并且只是用来管理java项目。2.Maven的好处maven项目管理jar节省磁盘空间一键构建,可以用一个命令(tomcat:run)让项目运行起来可以跨平台应用于大型项目时可以提高开发效率3.maven的三种仓库二.Maven的安装配置1...

2018-09-12 22:39:00 149

转载 Git(五)IDEA应用Git

一.IDEA客户端git1.提交代码到本地仓库1.关联Git,创建本地库关联git配置git环境变量设置本地仓库目录,一般是IDEA工作空间,选择VCS->Import into Version Control->Create Git Repository,创建本地仓库选择创建本地仓库的存放位置,这里是我的项目根目录可以才se...

2018-09-12 15:14:00 96

转载 Git(四)Git的分支管理

一.创建合并分支原理 在我们每次的提交,Git都把它们串成一条时间线,这条时间线就是一个分支。截止到目前,只有一条时间线,在Git里,这个分支叫主分支,即master分支。HEAD指针严格来说不是指向提交,而是指向master,master才是指向提交的。一开始的时候,master分支是一条线,Git用master指向最新的提交,再用HEAD指向master,就能确定当前分支...

2018-09-11 21:59:00 106

转载 Git(三)Git的远程仓库

一.添加远程库 现在我们已经在本地创建了一个Git仓库,又想让其他人来协作开发,此时就可以把本地仓库同步到远程仓库,同时还增加了本地仓库的一个备份。常用的远程仓库就是github:https://github.com/,接下来我们演示如何将本地代码同步到github。1.在github上创建仓库首先你得在github上创建一个账号,然后在github上创建一个仓库:...

2018-09-11 20:53:00 147

转载 Git(二)使用git管理文件版本(TortoiseGit )

一.创建版本库 什么是版本库呢?版本库又名仓库,英文名repository,你可以简单理解成一个目录,这个目录里面的所有文件都可以被Git管理起来,每个文件的修改、删除,Git都能跟踪,以便任何时刻都可以追踪历史,或者在将来某个时刻可以“还原”。由于git是分布式版本管理工具,所以git在不需要联网的情况下也具有完整的版本管理能力。创建一个版本库非常简单,可以使用git ba...

2018-09-11 18:50:00 173

转载 Git(一)Git的简介安装

一.git历史 同生活中的许多伟大事件一样,Git 诞生于一个极富纷争大举创新的年代。Linux 内核开源项目有着为数众广的参与者。绝大多数的 Linux 内核维护工作都花在了提交补丁和保存归档的繁琐事务上(1991-2002年间)。到 2002 年,Linux系统已经发展了十年了,代码库之大让Linus很难继续通过手工方式管理了,于是整个项目组开始启用分布式版本控制系统 Bit...

2018-09-11 17:41:00 172

转载 Solr7.4.0的API(Solrj)操作

一.SolrJ的概念solr单机版服务搭建:https://www.cnblogs.com/frankdeng/p/9615253.htmlsolr集群版服务搭建:https://www.cnblogs.com/frankdeng/p/9597680.html SolrJ是一个API,它使用Java(或任何基于JVM的语言)编写的应用程序可以轻松地与Solr交谈...

2018-09-10 23:36:00 144

转载 CentOS7.5搭建Solr7.4.0集群服务

一.Solr集群概念solr单机版搭建参考:https://www.cnblogs.com/frankdeng/p/9615253.html1.概念 SolrCloud(solr 云)是Solr提供的分布式搜索方案,当你需要大规模,容错,分布式索引和检索能力时使用SolrCloud。当一个系统的索引数据量少的时候是不需要使用SolrCloud的,当索引量很大...

2018-09-09 23:23:00 261

转载 CentOS7.5搭建Solr7.4.0单机服务

一.Solr安装环境1.官方参考文档Solr教程参考指南:http://lucene.apache.org/solr/guide/7_4/solr-tutorial.html2.Solr运行环境系统要求:Java 8+ 这里我们把solr服务部署到Tomacat服务器中,Tomcat安装过程参考:https://www.cnblogs.com/frankdeng...

2018-09-08 21:46:00 128

转载 CentOS7.5安装Tomcat8

一.tomcat的简介 这是Apache TomcatServlet / JSP容器的文档包的顶级入口点。的Apache Tomcat 8.0版实现了Servlet 3.1和JavaServer Pages 2.3规范从Java社区进程,并包含许多额外的功能,使开发和部署Web应用程序和Web服务的有用平台一.tomcat的安装1.tomcat下载官网...

2018-09-06 21:33:00 120

转载 Kafka集群管理工具kafka-manager的安装使用

一.kafka-manager简介 kafka-manager是目前最受欢迎的kafka集群管理工具,最早由雅虎开源,用户可以在Web界面执行一些简单的集群管理操作。具体支持以下内容:管理多个集群轻松检查群集状态(主题,消费者,偏移,代理,副本分发,分区分发)运行首选副本选举使用选项生成分区分配以选择要使用的代理运行分区重新分配(基于生成的分配)使用...

2018-09-04 23:08:00 237

转载 Storm(二)CentOS7.5搭建Storm1.2.2集群

一.Storm的下载官网下载地址:http://storm.apache.org/downloads.html这里下载最新的版本storm1.2.2,进入之后选择一个镜像下载二.Storm伪分布式安装1.环境准备JDK 1.7+ 验证: java -versionPython 2.6.6+ 验证:python -V2.解压安装...

2018-09-02 22:05:00 120

转载 Storm(一)Storm的简介与相关概念

一.Storm的简介官网地址:http://storm.apache.org/ Storm是一个免费开源、分布式、高容错的实时计算系统。Storm令持续不断的流计算变得容易,弥补了Hadoop批处理所不能满足的实时要求。Storm经常用于在实时分析、在线机器学习、持续计算、分布式远程调用和ETL等领域。Storm的部署管理非常简单,而且,在同类的流式计算工具,Storm的性...

2018-09-02 19:32:00 461

转载 Phoenix的安装使用与SQL查询HBase

一. Phoenix的简介1. 什么是phoenix 现有hbase的查询工具有很多如:Hive,Tez,Impala,Shark/Spark,Phoenix等。今天主要说Phoenix。phoenix是一个在hbase上面实现的基于hadoop的OLTP技术,具有低延迟、事务性、可使用sql、提供jdbc接口的特点。而且phoenix还提供了hbase二级索引的解决...

2018-08-26 10:16:00 237

转载 HBase应用之微博案例

一. 需求分析1)微博内容的浏览,数据库表设计2)用户社交体现:关注用户,取关用户3)拉取关注的人的微博内容二. 代码实现代码设计总览:1.创建命名空间以及表名的定义//获取配置 confprivate Configuration conf = HBaseConfiguration.create();//微博内容表的表名private...

2018-08-25 22:37:00 510

转载 HBase(十)HBase性能调优总结

一. HBase的通用优化1高可用 在HBase中Hmaster负责监控RegionServer的生命周期,均衡RegionServer 的负载,如果Hmaster挂掉了,那么整个HBase 集群将陷入不健康的状态,并且此时的工作状态并不会维持太久。所以HBase支持对Hmaster 的高可用配置。HBase的高可用集群搭建参考:Ce...

2018-08-25 11:22:00 396

转载 HBase(九)HBase表以及Rowkey的设计

一 命名空间1命名空间的结构1)Table:表,所有的表都是命名空间的成员,即表必属于某个命名空间,如果没有指定,则在default默认的命名空间中。2)RegionServergroup:一个命名空间包含了默认的RegionServerGroup。3)Permission:权限,命名空间能够让我们来定义访问控制列表ACL(AccessCo...

2018-08-19 22:17:00 184

转载 HBase(八)HBase的协处理器

一、协处理器简介1、 起源  Hbase 作为列族数据库最经常被人诟病的特性包括:无法轻易建立“二级索引”,难以执 行求和、计数、排序等操作。比如,在旧版本的(<0.92)Hbase 中,统计数据表的总行数,需 要使用 Counter 方法,执行一次 MapReduce Job 才能得到。虽然 HBase 在数据存储层中集成 了 MapReduce,能够有效用于数据表的分布...

2018-08-18 22:15:00 81

转载 HBase(七)Hbase过滤器

一、过滤器(Filter)  基础API中的查询操作在面对大量数据的时候是非常苍白的,这里Hbase提供了高级的查询方法:Filter。Filter可以根据簇、列、版本等更多的条件来对数据进行过滤,基于Hbase本身提供的三维有序(主键有序、列有序、版本有序),这些Filter可以高效的完成查询过滤的任务。带有Filter条件的RPC查询请求会把Filter分发到各个RegionSe...

2018-08-17 22:12:00 198

转载 HBase(六)HBase整合Hive,数据的备份与MR操作HBase

一.数据的备份与恢复1. 备份停止HBase服务后,使用distcp命令运行MapReduce 任务进行备份,将数据备份到另一个地方,可以是同一个集群,也可以是专用的备份集群。即,把数据转移到当前集群的其他目录下(也可以不在同一个集群中):$ bin/hadoop distcp \ hdfs://node21:8020/hbase \hdfs:/...

2018-08-16 22:02:00 234

转载 HBase(五)HBase的API操作

一、项目环境搭建新建MavenProject,新建项目后在pom.xml 中添加依赖:<dependency><groupId>org.apache.hbase</groupId><artifactId>hbase-server</artifactId><version>1.2.6&lt...

2018-08-15 18:52:00 80

转载 HBase(四)HBase集群Shell操作

一、进入HBase命令行在你安装的随意台服务器节点上,执行命令:hbase shell,会进入到你的 hbase shell 客 户端[admin@node21 ~]$ hbase shellSLF4J: Class path contains multiple SLF4J bindings.SLF4J: Found binding in [jar:file:/opt...

2018-08-14 23:53:00 300

转载 HBase(三)HBase架构与工作原理

一、系统架构注意:应该是每一个 RegionServer 就只有一个 HLog,而不是一个 Region 有一个 HLog。从HBase的架构图上可以看出,HBase中的组件包括Client、Zookeeper、HMaster、HRegionServer、HRegion、Store、MemStore、StoreFile、HFile、HLog等,接下来介绍他们的作用。...

2018-08-13 23:45:00 258

转载 HBase(二)CentOS7.5搭建HBase1.2.6HA集群

一、安装前提1、HBase 依赖于 HDFS 做底层的数据存储2、HBase 依赖于 MapReduce 做数据计算3、HBase 依赖于 ZooKeeper 做服务协调4、HBase源码是java编写的,安装需要依赖JDK1、版本选择打开官方的版本说明http://hbase.apache.org/1.2/book.htmlJDK的选择Hadoop的...

2018-08-12 21:49:00 190

转载 数据仓库理论(一)

一数据仓库的概念1什么是数据仓库数据仓库,英文名称为Data Warehouse,可简写为DW或DWH。数据仓库,是为企业所有级别的决策制定过程,提供所有类型数据支持的战略集合。它出于分析性报告和决策支持目的而创建。为需要业务智能的企业,提供指导业务流程改进、监视时间、成本、质量以及控制。2数据仓库能干什么?1)年度销售目标的指定,需要根据以往的历史报表进行决策,不...

2018-08-12 19:52:00 218

转载 Hive SQL综合案例

一 Hive SQL练习之影评案例案例说明现有如此三份数据:1、users.dat 数据格式为: 2::M::56::16::70072,共有6040条数据对应字段为:UserID BigInt, Gender String, Age Int, Occupation String, Zipcode String对应字段中文解释:用户id,性别,年龄,职业,邮政编码2、mo...

2018-08-12 18:54:00 343

转载 Hive(十)Hive性能调优总结

一、Fetch抓取1、理论分析Fetch抓取是指,Hive中对某些情况的查询可以不必使用MapReduce计算。例如:SELECT * FROM employees;在这种情况下,Hive可以简单地读取employee对应的存储目录下的文件,然后输出查询结果到控制台。在hive-default.xml.template文件中hive.fetch.task.conv...

2018-08-12 18:32:00 3663

转载 HBase(一)HBase入门简介

一HBase的起源HBase的原型是Google的BigTable论文,受到了该论文思想的启发,目前作为Hadoop 的子项目来开发维护,用于支持结构化的数据存储。ApacheHBase™是Hadoop数据库,这是一个分布式,可扩展的大数据存储。当您需要随机,实时读取/写入您的大数据时使用Apache HBase™。该项目的目标是托管非常大的表 - 数十亿行...

2018-08-11 22:54:00 108

转载 kafka可视化客户端工具(Kafka Tool)的基本使用

1、下载下载地址:http://www.kafkatool.com/download.html2、安装根据不同的系统下载对应的版本,我这里kafka版本是1.1.0,下载kafka tool 2.0.1。双击下载完成的exe图标,傻瓜式完成安装。3、简单使用kafka环境搭建请参考:CentOS7.5搭建Kafka2.11-1.1.0集群1...

2018-08-10 10:50:00 4271

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除