franklyna-CSDN博客

原创 excel函数大全

Excel常用函数大全1、ABS函数　函数名称：ABS 　　主要功能：求出相应数字的绝对值。　　使用格式：ABS(number) 　　参数说明：number代表需要求绝对值的数值或引用的单元格。　　应用举例：如果在B2单元格中输入公式：=ABS(A2)，则在A2单元格中无论输入正数（如100）还是负数（如-100），B2中均显示出正数（如100）。　　特别提醒：如果numb...

2018-09-10 08:42:37 408

原创 spring常见注解

Spring的一个核心功能是IOC，就是将Bean初始化加载到容器中，Bean是如何加载到容器的，可以使用Spring注解方式或者Spring XML配置方式。 Spring注解方式减少了配置文件内容，更加便于管理，并且使用注解可以大大提高了开发效率！下面按照分类讲解Spring中常用的一些注解。一：组件类注解<span style="color:#000000">&...

2018-08-13 19:46:17 191

原创 hive 窗口函数

简介本文主要介绍hive中的窗口函数.hive中的窗口函数和sql中的窗口函数相类似,都是用来做一些数据分析类的工作,一般用于olap分析概念我们都知道在sql中有一类函数叫做聚合函数,例如sum()、avg()、max()等等,这类函数可以将多行数据按照规则聚集为一行,一般来讲聚集后的行数是要少于聚集前的行数的.但是有时我们想要既显示聚集前的数据,又要显示聚集后的数据,这时我们便引入...

2018-08-05 13:35:32 281

原创贝叶斯公式

条件概率和全概率在介绍贝叶斯定理之前，先简单地介绍一下条件概率，描述的是事件 A 在另一个事件 B 已经发生条件下的概率，记作， A 和 B 可能是相互独立的两个事件，也可能不是：表示 A，B 事件同时发生的概率，如果 A 和 B 是相互独立的两个事件，那么：上面的推导过程反过来证明了如果 A 和 B 是相互独立的事件，那么事件 A 发生的概率与 B 无关。稍微做一下改...

2018-08-03 09:54:34 5475

前言随着大数据时代的到来，数据当中挖取金子的工作越来越有吸引力。利用Spark在内存迭代运算、机器学习领域强悍性能的优势，使用spark处理数据挖掘问题就显得很有实际价值。这篇文章给大家分享一个spark MLlib 的推荐实战例子。我将会分享怎样用spark MLlib做一个电影评分的推荐系统。使用到的算法是user-based协同过滤。如果对Spark MLlib不太了解的，请阅读我的上一...

2018-08-02 20:35:37 503

原创 kafka集群搭建

Kafka集群搭建Kafka初识Kafka使用背景在我们大量使用分布式数据库、分布式计算集群的时候，是否会遇到这样的一些问题：我们想分析下用户行为（pageviews），以便我们设计出更好的广告位我想对用户的搜索关键词进行统计，分析出当前的流行趋势有些数据，存储数据库浪费，直接存储硬盘效率又低这些场景都有一个共同点：数据是由上游模块产生，上游模块，使用上游模块的数据计算、统计、分析...

2018-08-01 13:33:21 579

原创 kafka基本原理

一、简介Apache Kafka是分布式发布-订阅消息系统，在 kafka官网上对 kafka 的定义：一个分布式发布-订阅消息传递系统。它最初由LinkedIn公司开发，Linkedin于2010年贡献给了Apache基金会并成为顶级开源项目。Kafka是一种快速、可扩展的、设计内在就是分布式的，分区的和可复制的提交日志服务。几种分布式系统消息系统的对比：推荐相关文章：各消息队...

2018-08-01 09:54:20 255

原创 hive的数据倾斜

数据倾斜在做Shuffle阶段的优化过程中，遇到了数据倾斜的问题，造成了对一些情况下优化效果不明显。主要是因为在Job完成后的所得到的Counters是整个Job的总和，优化是基于这些Counters得出的平均值，而由于数据倾斜的原因造成map处理数据量的差异过大，使得这些平均值能代表的价值降低。Hive的执行是分阶段的，map处理数据量的差异取决于上一个stage的reduce输出，所以如...

2018-07-31 09:18:17 188

原创 flume原理

一 flume简介flume是一个分布式、可靠、和高可用的海量日志采集、聚合和传输的系统。支持在日志系统中定制各类数据发送方，用于收集数据;同时，Flume提供对数据进行简单处理，　　并写到各种数据接受方(比如文本、HDFS、Hbase等)的能力。　　flume的数据流由事件(Event)贯穿始终。事件是Flume的基本数据单位，它携带日志数据(字节数组形式)并且携带有头信息，这些Ev...

2018-07-30 14:16:52 522

原创 hive和hbase结合

Hive提供了与HBase的集成，使得能够在HBase表上使用HQL语句进行查询插入操作以及进行Join和Union等复杂查询Hive和HBase集成的配置1 将hbase 相关jar包拷贝到hive lib目录下hive-2.3.3/lib/hbase-server-1.1.1.jar,hive-2.3.3/lib/hbase-client-1.1.1.jar,hive-2.3.3...

2018-07-30 14:15:19 302

原创大数据面试题一

1、简答说一下hadoop的map-reduce编程模型首先map task会从本地文件系统读取数据，转换成key-value形式的键值对集合使用的是hadoop内置的数据类型，比如longwritable、text等将键值对集合输入mapper进行业务处理过程，将其转换成需要的key-value在输出之后会进行一个partition分区操作，默认使用的是hashpartition...

2018-07-30 10:17:24 412

原创 zookeeper工作机制

1、Zookeeper的角色　　» 领导者（leader），负责进行投票的发起和决议，更新系统状态　　» 学习者（learner），包括跟随者（follower）和观察者（observer），follower用于接受客户端请求并想客户端返回结果，在选主过程中参与投票　　» Observer可以接受客户端连接，将写请求转发给leader，但observer不参加投票过程，只同步leader的...

2018-07-29 20:43:37 267

原创 hbase原理

在HBase的概念中，HRegionServer对应集群中的一个节点，一个HRegionServer负责管理多个HRegion，而一个HRegion代表一张表的一部分数据。在HBase中，一张表可能会需要很多个HRegion来存储数据，每个HRegion中的数据并不是杂乱无章的。HBase在管理HRegion的时候会给每个HRegion定义一个Rowkey的范围，落在特定范围内的数据将交给特定的R...

2018-07-29 20:36:02 226

原创 hive HQl

1 hive的数据类型①基本类型布尔：boolean整数：int(4byte)(tinyint(1byte),smallint(2byte),bigint(8byte))浮点数：float(4byte)(double(8byte),decimal)字符串类型：string(varchar(可变长度),char(固定长度的字符串))日期类型：timestamp(返回自1970-1-1到...

2018-07-29 17:48:13 583

原创 hive数据倾斜

数据倾斜在做Shuffle阶段的优化过程中，遇到了数据倾斜的问题，造成了对一些情况下优化效果不明显。主要是因为在Job完成后的所得到的Counters是整个Job的总和，优化是基于这些Counters得出的平均值，而由于数据倾斜的原因造成map处理数据量的差异过大，使得这些平均值能代表的价值降低。Hive的执行是分阶段的，map处理数据量的差异取决于上一个stage的reduce输出，所以如...

2018-07-29 16:11:50 217

原创 hive技术原理

什么是Hive？ Hive是建立在 Hadoop 上的数据仓库基础构架。它提供了一系列的工具，可以用来进行数据提取转化加载（ETL），这是一种可以存储、查询和分析存储在 Hadoop 中的大规模数据的机制。Hive 定义了简单的类 SQL 查询语言，称为 HQL，它允许熟悉 SQL 的用户查询数据。同时，这个语言也允许熟悉 MapReduce 开发者的开发自定义的 mapper 和...

2018-07-29 11:46:59 277

原创 mr数据倾斜优化

减小数据倾斜的性能损失数据倾斜是数据中的常见情况。数据中不可避免地会出现离群值（outlier），并导致数据倾斜。这些离群值会显著地拖慢MapReduce的执行。常见的数据倾斜有以下几类：数据频率倾斜——某一个区域的数据量要远远大于其他区域。数据大小倾斜——部分记录的大小远远大于平均值。在map端和reduce端都有可能发生数据倾斜。在map端的数据倾斜会让多样化的数据集的处理效率...

2018-07-29 11:31:49 2896

原创 mapreduce的 combiner 和groupping comparator

combiner:问题提出：众所周知，Hadoop框架使用Mapper将数据处理成一个<key,value>键值对，再网络节点间对其进行整理(shuffle)，然后使用Reducer处理数据并进行最终输出。在上述过程中，我们看到至少两个性能瓶颈：（引用）如果我们有10亿个数据，Mapper会生成10亿个键值对在网络间进行传输，但如果我们只是对数据求最大值，那么很明显...

2018-07-29 10:18:39 387

原创 mapreduce 原理

MapReduce各个执行阶段（1）MapReduce框架使用InputFormat模块做Map前的预处理，比如验证输入的格式是否符合输入定义；然后，将输入文件切分为逻辑上的多个InputSplit，InputSplit是MapReduce对文件进行处理和运算的输入单位，只是一个逻辑概念，每个InputSplit并没有对文件进行实际切割，只是记录了要处理的数据的位置和长度。（2）因为I...

2018-07-29 10:11:06 424

原创 spark基本架构原理

Apache Spark是一个围绕速度、易用性和复杂分析构建的大数据处理框架，最初在2009年由加州大学伯克利分校的AMPLab开发，并于2010年成为Apache的开源项目之一，与Hadoop和Storm等其他大数据和MapReduce技术相比，Spark有如下优势：Spark提供了一个全面、统一的框架用于管理各种有着不同性质（文本数据、图表数据等）的数据集和数据源（批量数据或实时的流数据）...

2018-07-24 09:02:06 467

原创 spark和hadoop mapreduce的异同

首先Spark是借鉴了mapreduce并在其基础上发展起来的，继承了其分布式计算的优点并改进了mapreduce明显的缺陷，但是二者也有不少的差异具体如下：ApacheSpark 是专为大规模数据处理而设计的快速通用的计算引擎。Spark是UC Berkeley AMP lab (加州大学伯克利分校的AMP实验室)所开源的类HadoopMapReduce的通用并行计算框架，Spark拥有Hado...

2018-07-23 10:41:16 5046

原创 cache分析好persist解释

Spark cache的用法及其误区:一、使用Cache注意下面三点（1）cache之后一定不能立即有其它算子，不能直接去接算子。因为在实际工作的时候，cache后有算子的话，它每次都会重新触发这个计算过程。（2）cache不是一个action，运行它的时候没有执行一个作业。（3）cache缓存如何让它失效：unpersist，它是立即执行的。persist是lazy级别的（没有计...

2018-07-19 09:26:00 426

原创 spark cache 和 persist的区别

cache和persist都是用于将一个RDD进行缓存的，这样在之后使用的过程中就不需要重新计算了，可以大大节省程序运行时间。基于Spark 1.4.1 的源码，可以看到/** Persist this RDD with the default storage level (`MEMORY_ONLY`). */def cache(): this.type = persist()说明...

2018-07-19 09:19:14 241

原创 mybatis-generator

Mybatis-Generator关于Mybatis-Generator的下载可以到这个地址：https://github.com/mybatis/generator/releases由于我使用的是Mysql数据库，这里需要在准备一个连接mysql数据库的驱动jar包generatorConfig.xml 1 <?xml version="1.0" encoding="UT...

2018-07-18 20:47:13 176

原创 redis linux安装

Redis cendos7 安装配置：1解压缩到目标目录，例如：/opt/redis-4.092配置安装环境：yum install –ygcc-c++3进入目录通过make文件编译4修改redis.conf: https://blog.csdn.net/ljl890705/article/details/51540427 daemonizeyes 使变更为守护进程...

2018-05-18 11:26:51 165

franklyna的博客