lemon lime-CSDN博客

原创 Presto、Impala性能比较

防丢失链接：https://blog.csdn.net/u012551524/article/details/79124532

2019-12-05 16:06:36 815

原创 Pulsar整理

Pulsar整理一，Pulsar简述1.1 定义Apache Pulsar是一个分布式、高性能的服务器到服务器的消息解决方案。Apache Pulsar是最初在Yahoo创建的开源分布式pub-sub消息传递系统，现已成为Apache Software Foundation的一部分。1.2 Pulsar基础架构概述Plusar包含以下几种组件，如下图：架构之间的协作，如下图：1....

2019-12-04 15:49:09 2050

原创 Kylin整理

Kylin整理一，概述1.1 Kylin定义 Apache Kylin是一个开源的分布式分析引擎，提供Hadoop/Spark之上的SQL查询接口及多维分析（OLAP）能力以支持超大规模数据，最初由eBay Inc开发并贡献至开源社区。它能在亚秒内查询巨大的Hive表。1.2 Kylin特点Kylin的主要特点包括支持SQL接口、支持超大规模数据集、亚秒级响应、可伸缩...

2019-11-26 10:22:38 467

OLAP和OLTP基本概念和主要区别一，OLAP概念OLTP的全称是On-line Transaction Processing，中文名称是联机事务处理。其特点是会有高并发且数据量级不大的查询，是主要用于管理事务（transaction-oriented)的系统。此类系统专注于short on-line-tansactions 如INSERT, UPDATE, DELETE操作。通常存在此类系...

2019-11-18 15:33:20 27891 2

原创 Flink整理(2)

Flink整理(2)一，Flink 流处理Api1.1 Environment1.1.1 getExecutionEnvironment 创建一个执行环境，表示当前执行程序的上下文。如果程序是独立调用的，则此方法返回本地执行环境；如果从命令行客户端调用程序以提交到集群，则此方法返回此集群的执行环境，也就是说，getExecutionEnvironment会根据查询运行...

2019-11-14 14:32:34 363

原创 Flink整理(1)

Flink整理(1)一，Flink简介1.1 起源 Flink起源于Stratosphere项目，Stratosphere是在2010~2014年由3所地处柏林的大学和欧洲的一些其他的大学共同进行的研究项目，2014年4月Stratosphere的代码被复制并捐赠给了Apache软件基金会，参加这个孵化项目的初始成员是Stratosphere系统的核心开发人员，2014年12月，Flink...

2019-11-08 11:05:59 219

原创 KuDu常用Api(java)

KuDu 常用Api(java)1.首先创建一个maven工程，添加一下依赖<dependency> <groupId>org.apache.kudu</groupId> <artifactId>kudu-client</artifactId> <version>1.4.0</ve...

2019-06-21 15:26:23 5704 1

原创 CDH环境安装KUDU

CDH环境安装KUDUCDH的安装自行翻阅博客1.点击主机下面的Parcel2.点击KUDU对应的下载，下载完后点击分配，激活3.回到首页添加服务4.选择KUDU选择继续5.分配角色6.设置master和Tablet的路径7.配置impala支持KUDU7.1 点击impala7.2 点击配置7.3 找到KUDU服务，选择Kudu然后重启服务...

2019-06-20 17:10:29 3756

原创 Apache KUDU 安装搭建

Apache KUDU 安装搭建节点规划节点角色node1Master Server、Tablet Servernode2Master Server、Tablet Servernode3Kudu Client、Tablet Servernode4Master Server配置NTP时钟同步所有结点执行：yum -y install ntp ...

2019-06-20 16:46:15 1123 1

原创数据库理论——概念模型、逻辑模型、物理模型

概念模型、逻辑模型、物理模型1.概念模型在了解了用户的需求，用户的业务领域工作情况以后，经过分析和总结，提炼出来的用以描述用户业务需求的一些概念的东西。如销售业务中的“客户”和“定单”，还有就是“商品”，“业务员”。主要是抽取出系统中有哪些概念（此时可以不包含属性，只有实体集，联系集的分析结构）表示概念模型最常用的是**"实体-关系"图**。 E-R图主要是由实体、属性和关系三个要素构成...

2019-04-19 10:14:47 1904

原创 Spark优化

Spark优化一，资源调优1.1 在部署spark集群中指定资源分配的默认参数在spark安装包的conf下 spark-env.shSPARK_WORKER_CORES 每台worker节点分配的最大核数SPARK_WORKER_MEMORY 每台worker节点分配的最大内存SPARK_WORKER_INSTANCES 每台节点上启动的...

2019-03-01 22:55:16 1033

原创 Spark整理(6)

Spark整理(6)一，SparkStreaming简介 SparkStreaming是流式处理框架，是Spark API的扩展，支持可扩展，高吞吐量，容错的实时数据流处理，实时数据的来源可以是：Kafka，Flume，Twitter，ZeroMQ，或者TCP sockets,并且可以使用高级功能的复杂算子来处理流数据。例如：map,reduce,join,window.最终，处理后的数据可...

2019-02-24 19:58:18 258

原创 Spark整理(5)

Spark整理(5)一，Shrak介绍 Shark是基于Spark计算框架之上且兼容Hive语法的SQL执行引擎。由于底层的计算采用了Spark，性能比MapReduce的HIve普通快2倍以上，当数据全部Load在内存的话，将快10倍以上，因此Shrak可以交互式查询应用服务来使用。除了基于Spark的特性外，Shark是完全兼容Hive的语法，表结构以及UDF函数等，已有的HiveSql...

2019-02-22 20:36:01 258

原创 Spark整理(4)

Spark整理(4)一，广播变量和累加器1.1 广播变量理解图广播变量降低了网络传输的压力，一个Exector中对应一份数据即可，task需要可自行到BlockManager中获取，不必每次获取都向Driver获取。注意点1.不能将RDD当做广播变量广播出去，因为RDD是不存储数据的，可以将RDD的结果广播出去2.广播变量只能在Driver端定义，不能在Exector端定...

2019-02-21 22:17:27 178

原创 Spark整理(3)

Spark整理(3)一，算子1.1 转换算子repartition增加或减少分区，会产生shufflescala代码:package com.shsxt.spark.scalaimport org.apache.spark.{SparkConf, SparkContext}object Sp_Repartition { def main(args: Array[Str...

2019-02-21 22:15:32 372

原创 Spark整理(2)

Spark整理(2)一，Standalone提交任务1.1 Standalone-client提交任务提交命令/spark-submit --master spark://node01:7077 --class org.apache.spark.examples.SparkPi ../lib/spark-examples-1.6.0-hadoop2.6.0.jar 1000...

2019-02-19 13:33:14 233

原创 Spark整理(1)

Spark整理(1)一，介绍1.1 什么是sparkApache Spark 是为大规模数据处理设计的快速通用的计算引擎(框架).从右侧的新闻中看，Spark也用于AI人工智能Spark 是 UC Berkeley AMP lab (加州大学伯克利分校的 AMP 实验室)所开源的类 Hadoop MapReduce 的通用并行计算框架，Spark 拥有Hadoop Map...

2019-02-17 20:09:54 285

原创 Scala(下)

Scala(下)一，集合1.1 数组创建数组val a = new Array(Int)(5) ##定义一个元素为Int类型，长度为5的数组a(0) = 1 ##赋值a(1) = 2a(2) = 3val b = Array("s1","s2","s3") ##定义数组另一种方式数组遍历//forval a = new Array(Int)(5) ##定义一个...

2019-02-16 20:43:19 139

原创 Scala(上)

Scala(上)一，初识Scala Scala是一门多范式的编程语言，一种类似java的编程语言，设计初衷是实现可伸缩的语言，并集成面向对象编程和函数式编程的各种特性。Scala官网给出的6大特性：Java和Scala可以混编 (Scala运行在JVM上，编译后是.class文件)类型自动推断并发和分布式 (Actor)Traits特质，特征 (类似于java中的接口和抽象类...

2019-02-15 22:24:41 144

原创 redis介绍

redis介绍一，Redis简介· Redis是一个开源的(BSD许可)的，内存中的数据结构存储系统。使用c语言编写，支持网络，可基于内存也可持久化的日志型，key-value数据库。它可以用做数据库，缓存和消息中间件。拥有丰富的支持主流语言的客户端。C、C++、Python、Erlang、R、C#、Java、PHP、Objective- C、Perl、Ruby、Scala、Go、JavaSc...

2019-02-14 23:02:49 553

原创 Storm整理(上)

Storm整理(上)一，Storm认识Storm是个实时的，分布式以及具备高容错的计算框架。主要有两个特点：Storm进程常驻内存，Storm数据不经过磁盘，在内存中处理。应用：双十一实时更新成交额：QQ实时在线人数统计：Storm架构简单介绍，后面有详细解释架构：NimbusSupervisorWorker编程模型：DAG(Topology...

2019-02-05 18:36:41 262

原创 Kafka整理

Kafka整理一，简介Kafka是一个高吞吐量，低延迟分布式的消息队列系统。Kafka每秒可处理几十万条消息，它的低延迟最低只有几毫秒。Kafka集群中有多个Broker服务器组成，每个类型的消息被定义为topic。同一个topic内部的消息按照一定的key和算法被分区(partition)存储在不同的Broker上。消息生产者producer和消费者consumer可以在多个Bro...

2019-01-28 22:06:06 194

原创 ElasticSearch(下)

ElasticSearch(下)一，Elasticsearch核心概念1.cluster代表一个集群，集群有多个节点，其中一个是主节点，这个主节点是可以通过选举产生的，主从节点是对于集群内部来说的。es的一个重要概念就是去中心化，字面上理解就是无中心节点，这是对于集群外部来说的，因为从外部来看，es集群，在逻辑上是个整体，你和任何一个节点的通信和整个es集群通信是等价的。主节点的职责是负责...

2019-01-26 22:25:21 205

原创 ElasticSearch(上)

ElasticSearch(上)一，什么是ElasticSearch? ElasticSearch是一个基于Lucene的实时分布式的全文检索引擎。设计用于云计算中，能够达到实时搜索，稳定，可靠，快速，安装使用方便，基于RESTful接口。Lucene相关–&gt;博客地址：https://blog.csdn.net/weixin_43270493/article/category/8...

2019-01-25 23:00:20 252

原创 Flume简介及常用操作

Flume简介及常用操作一，Flume简介 Flume是一个分布式，可扩展，可靠，高可用的海量日志有效聚合及移动的框架。它通常用于log数据的收集，支持在系统中定制各类数据发送方，用于收集数据。它具有可靠性和容错可调机制和许多故障转移和恢复机制。二，Flume组织架构2.1 0.9x组织架构 Flume OG在0.9x架构中，组成部分有: agent colle...

2019-01-18 21:03:55 1139 1

原创 MapReduce输出结果导入HBase

MapReduce输出结果导入HBase这里以wordCount为例简单介绍下,代码实现MapReduce计算完数据导入到HBase中Job.javapackage com.shsxt.mapre.tohbase;import java.io.IOException;import org.apache.hadoop.conf.Configuration;import org.apa...

2019-01-17 22:58:27 1075

原创 HBase预分区

HBase预分区HBase预分区针对海量导入数据时的热点问题在创建HBase表的时候默认一张表只有一个region，所有的put操作都会向这一个region中导入数据，当这一个region过大达到阀值时就会进行spilt。如果在创建表的时候就进行预分区则会减少数据量猛增时由于 region spilt带来的资源消耗。 HBase表的预分区需要紧密结合业务场景来选择分区的 row Key...

2019-01-17 22:57:43 567

原创 HBase性能优化

HBase性能优化一，表的设计1.1 pre-Createing Regions关于预分区，点击链接–&gt;1.2 Row KeyHBase中row key 用来检索表中的记录，支持以下三种方式：---- 通过单个 row key访问：即按照某个row key键值进行 get操作。---- 通过 row key的 range进行 scan：即通过设置startRowKey和s...

2019-01-17 22:56:55 551

原创 HBase—表结构

HBase—表结构一，高表与宽表的选择高表：很多行较少列，即行多列少，一行中的数据量较少，行数大。宽表：很多列较少行，即列多行少，一行中的数据量较大，行数少。HBase的 Row Key是分布式的索引，也是分片的依据。hbase的row key + column family + column qualifier + timestamp + value是HFile中数据排列依据。HF...

2019-01-17 22:56:08 597

原创 Hbase入门(上)

Hbase入门(上)简介：HBase–Hadoop Database,是一个高可靠性，高性能，面向列，可伸缩，实时读写的分布式数据库。在Hadoop生态圈，它是其中一部分且利用Hadoop HDFS作为其文件存储系统，利用Hadoop MapReduce来处理Hbase中的海量数据。利用Zookeeper作为其分布式协同服务，主要用来存储非结构化和半结构化的松散数据(NoSql非关系型数...

2019-01-15 22:52:41 187

原创 Sqoop安装和导入导出

Sqoop安装和导入导出一，介绍 Sqoop(发音：skup)是一款开源的工具，主要用于在Hadoop(Hive)与传统的数据库(mysql、postgresql…)间进行数据的传递，可以将一个关系型数据库*（例如： MySQL ,Oracle ,Postgres等）*中的数据导进到Hadoop的HDFS中，也可以将HDFS的数据导进到关系型数据库中。版本：(两个版本完全不兼容，sq...

2019-01-14 22:23:27 1559 4

原创 Hive(下)

Hive(下)一，Hive分区与自定义函数1.1 Hive的分区 partition假如现在我们公司一天产生3亿的数据量，那么为了方便管理和查询，此时可以建立分区(可按日期部门等具体业务分区)。分门别类的管理注意：必须在表创建的时候创建 partition!!!分区分为：单分区和多分区分区分为：静态分区和动态分区1.1.1 创建分区单分区建表语句：create table d...

2019-01-14 19:22:04 460

原创 MapReduce源码分析，Reduce

MapReduce源码分析，Reduce阶段一，Reducer.class@[email protected]@InterfaceStability.Stablepublic class Reducer<KEYIN,VALUEIN,KEYOUT,VALUEOUT> { /** * The <code>Cont...

2019-01-13 17:04:04 470

原创 MapReduce源码跟踪之 Map阶段 outPut

MapReduce源码跟踪之 Map阶段 outPut承接 input 源码跟踪 @SuppressWarnings("unchecked") private <INKEY,INVALUE,OUTKEY,OUTVALUE> void runNewMapper(final JobConf job, final TaskSplitInd...

2019-01-13 17:03:32 173

原创 MapReduce源码跟踪之 Map阶段 input

MapReduce源码跟踪之 Map阶段 input一，查看 [email protected]@InterfaceStability.Stablepublic class Mapper<KEYIN, VALUEIN, KEYOUT, VALUEOUT> { /** * The <code>Context<...

2019-01-13 17:02:38 191

原创 MapReduce 客户端提交Job源码跟踪

MapReduce 客户端提交Job源码跟踪以WordCount为例：首先是设置了连接Hadoop集群相关的配置文件，设置了Job相关的类的信息等等…一，点击Job进入:可以看到job类是继承了一个类并实现了 JobContext接口，点击JobContextJobContext又是继承了 MRJobConfig 这个类，不难猜出，这个类是MapReduce程序运行时的配置...

2019-01-13 17:01:35 250

原创 Hive简介(上)

Hive简介(上)一，Hive及数据仓库简介 Hive是基于Hadoop的一个数据仓库工具，可以将结构化的数据文件映射为一张hive数据库表，并提供了简单的sql查询功能，可以将sql语句转换为MapReduce任务执行。 Hive的出现使Java编程者可以对HDFS数据做mapreduce操作(无需清楚文件的存储和任务的运行)。使用SQL来快速实现简单的Mapreduce统计，不必开发...

2019-01-12 22:16:47 349

原创 MapReduce Job提交源码跟踪

https://blog.csdn.net/chengyuqiang/article/details/78640294

2019-01-10 20:26:53 164 1

转载基于物品的协同过滤算法ItemCF

基于物品的协同过滤算法ItemCF基于item的协同过滤，通过用户对不同item的评分来评测item之间的相似性，基于item之间的相似性做出推荐。简单来讲就是：给用户推荐和他之前喜欢的物品相似的物品。用例说明：注：基于物品的协同过滤算法，是目前商用最广泛的推荐算法。刚开始看这个用例，感觉还是基于用户进行的推荐，用户A,B,C都喜欢物品a,并且用户A,B喜欢物品c，然后就将物品c推荐给用...

2019-01-09 10:28:10 1102

转载 TF-IDF及其算法

概念     TF-IDF（term frequency–inverse document frequency）是一种用于资讯检索与资讯探勘的常用加权技术。TF-IDF是一种统计方法，用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。字词的重要性随着它在文件中出现的次数成正比增加，但同时会随着它在语料库中出现的频率成反比下降。TF-IDF...

2019-01-09 09:31:15 186

空空如也

空空如也