franklyna
码龄7年
关注
提问 私信
  • 博客:20,380
    20,380
    总访问量
  • 25
    原创
  • 330,655
    排名
  • 8
    粉丝
  • 0
    铁粉
IP属地以运营商信息为准,境内显示到省(区、市),境外显示到国家(地区)
IP 属地:辽宁省
  • 加入CSDN时间: 2018-05-03
博客简介:

franklyna的博客

查看详细资料
个人成就
  • 获得11次点赞
  • 内容获得0次评论
  • 获得13次收藏
创作历程
  • 25篇
    2018年
成就勋章
创作活动更多

超级创作者激励计划

万元现金补贴,高额收益分成,专属VIP内容创作者流量扶持,等你加入!

去参加
  • 最近
  • 文章
  • 代码仓
  • 资源
  • 问答
  • 帖子
  • 视频
  • 课程
  • 关注/订阅/互动
  • 收藏
搜TA的内容
搜索 取消

excel函数大全

Excel常用函数大全1、ABS函数  函数名称:ABS   主要功能:求出相应数字的绝对值。   使用格式:ABS(number)   参数说明:number代表需要求绝对值的数值或引用的单元格。   应用举例:如果在B2单元格中输入公式:=ABS(A2),则在A2单元格中无论输入正数(如100)还是负数(如-100),B2中均显示出正数(如100)。   特别提醒:如果numb...
原创
发布博客 2018.09.10 ·
389 阅读 ·
1 点赞 ·
0 评论 ·
1 收藏

spring常见注解

Spring的一个核心功能是IOC,就是将Bean初始化加载到容器中,Bean是如何加载到容器的,可以使用Spring注解方式或者Spring XML配置方式。 Spring注解方式减少了配置文件内容,更加便于管理,并且使用注解可以大大提高了开发效率! 下面按照分类讲解Spring中常用的一些注解。一: 组件类注解<span style="color:#000000">&...
原创
发布博客 2018.08.13 ·
180 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

hive 窗口函数

简介本文主要介绍hive中的窗口函数.hive中的窗口函数和sql中的窗口函数相类似,都是用来做一些数据分析类的工作,一般用于olap分析概念我们都知道在sql中有一类函数叫做聚合函数,例如sum()、avg()、max()等等,这类函数可以将多行数据按照规则聚集为一行,一般来讲聚集后的行数是要少于聚集前的行数的.但是有时我们想要既显示聚集前的数据,又要显示聚集后的数据,这时我们便引入...
原创
发布博客 2018.08.05 ·
270 阅读 ·
1 点赞 ·
0 评论 ·
1 收藏

贝叶斯公式

条件概率和全概率在介绍贝叶斯定理之前,先简单地介绍一下条件概率,描述的是事件 A 在另一个事件 B 已经发生条件下的概率,记作 , A 和 B 可能是相互独立的两个事件,也可能不是: 表示 A,B 事件同时发生的概率,如果 A 和 B 是相互独立的两个事件,那么:上面的推导过程反过来证明了如果 A 和 B 是相互独立的事件,那么事件 A 发生的概率与 B 无关。稍微做一下改...
原创
发布博客 2018.08.03 ·
5397 阅读 ·
4 点赞 ·
0 评论 ·
6 收藏

spark mlib系列2

前言随着大数据时代的到来,数据当中挖取金子的工作越来越有吸引力。利用Spark在内存迭代运算、机器学习领域强悍性能的优势,使用spark处理数据挖掘问题就显得很有实际价值。这篇文章给大家分享一个spark MLlib 的推荐实战例子。我将会分享怎样用spark MLlib做一个电影评分的推荐系统。使用到的算法是user-based协同过滤。如果对Spark MLlib不太了解的,请阅读我的上一...
原创
发布博客 2018.08.02 ·
481 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

kafka集群搭建

Kafka集群搭建Kafka初识Kafka使用背景在我们大量使用分布式数据库、分布式计算集群的时候,是否会遇到这样的一些问题:我们想分析下用户行为(pageviews),以便我们设计出更好的广告位我想对用户的搜索关键词进行统计,分析出当前的流行趋势有些数据,存储数据库浪费,直接存储硬盘效率又低这些场景都有一个共同点:数据是由上游模块产生,上游模块,使用上游模块的数据计算、统计、分析...
原创
发布博客 2018.08.01 ·
566 阅读 ·
1 点赞 ·
0 评论 ·
0 收藏

kafka基本原理

一、简介Apache Kafka是分布式发布-订阅消息系统,在 kafka官网上对 kafka 的定义:一个分布式发布-订阅消息传递系统。 它最初由LinkedIn公司开发,Linkedin于2010年贡献给了Apache基金会并成为顶级开源项目。Kafka是一种快速、可扩展的、设计内在就是分布式的,分区的和可复制的提交日志服务。几种分布式系统消息系统的对比:推荐相关文章:各消息队...
原创
发布博客 2018.08.01 ·
238 阅读 ·
0 点赞 ·
0 评论 ·
1 收藏

hive的数据倾斜

数据倾斜在做Shuffle阶段的优化过程中,遇到了数据倾斜的问题,造成了对一些情况下优化效果不明显。主要是因为在Job完成后的所得到的Counters是整个Job的总和,优化是基于这些Counters得出的平均值,而由于数据倾斜的原因造成map处理数据量的差异过大,使得这些平均值能代表的价值降低。Hive的执行是分阶段的,map处理数据量的差异取决于上一个stage的reduce输出,所以如...
原创
发布博客 2018.07.31 ·
162 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

flume原理

一 flume简介flume是一个分布式、可靠、和高可用的海量日志采集、聚合和传输的系统。支持在日志系统中定制各类数据发送方,用于收集数据;同时,Flume提供对数据进行简单处理,  并写到各种数据接受方(比如文本、HDFS、Hbase等)的能力 。  flume的数据流由事件(Event)贯穿始终。事件是Flume的基本数据单位,它携带日志数据(字节数组形式)并且携带有头信息,这些Ev...
原创
发布博客 2018.07.30 ·
493 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

hive和hbase结合

Hive提供了与HBase的集成,使得能够在HBase表上使用HQL语句进行查询 插入操作以及进行Join和Union等复杂查询Hive和HBase集成的配置1 将hbase 相关jar包拷贝到hive lib目录下hive-2.3.3/lib/hbase-server-1.1.1.jar,hive-2.3.3/lib/hbase-client-1.1.1.jar,hive-2.3.3...
原创
发布博客 2018.07.30 ·
288 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

大数据面试题一

1、简答说一下hadoop的map-reduce编程模型首先map task会从本地文件系统读取数据,转换成key-value形式的键值对集合使用的是hadoop内置的数据类型,比如longwritable、text等将键值对集合输入mapper进行业务处理过程,将其转换成需要的key-value在输出之后会进行一个partition分区操作,默认使用的是hashpartition...
原创
发布博客 2018.07.30 ·
402 阅读 ·
0 点赞 ·
0 评论 ·
1 收藏

zookeeper工作机制

1、Zookeeper的角色  » 领导者(leader),负责进行投票的发起和决议,更新系统状态  » 学习者(learner),包括跟随者(follower)和观察者(observer),follower用于接受客户端请求并想客户端返回结果,在选主过程中参与投票  » Observer可以接受客户端连接,将写请求转发给leader,但observer不参加投票过程,只同步leader的...
原创
发布博客 2018.07.29 ·
252 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

hbase原理

在HBase的概念中,HRegionServer对应集群中的一个节点,一个HRegionServer负责管理多个HRegion,而一个HRegion代表一张表的一部分数据。在HBase中,一张表可能会需要很多个HRegion来存储数据,每个HRegion中的数据并不是杂乱无章的。HBase在管理HRegion的时候会给每个HRegion定义一个Rowkey的范围,落在特定范围内的数据将交给特定的R...
原创
发布博客 2018.07.29 ·
207 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

hive HQl

1 hive的数据类型①基本类型布尔:boolean整数:int(4byte)(tinyint(1byte),smallint(2byte),bigint(8byte))浮点数:float(4byte)(double(8byte),decimal)字符串类型:string(varchar(可变长度),char(固定长度的字符串))日期类型:timestamp(返回自1970-1-1到...
原创
发布博客 2018.07.29 ·
553 阅读 ·
0 点赞 ·
0 评论 ·
1 收藏

hive数据倾斜

数据倾斜在做Shuffle阶段的优化过程中,遇到了数据倾斜的问题,造成了对一些情况下优化效果不明显。主要是因为在Job完成后的所得到的Counters是整个Job的总和,优化是基于这些Counters得出的平均值,而由于数据倾斜的原因造成map处理数据量的差异过大,使得这些平均值能代表的价值降低。Hive的执行是分阶段的,map处理数据量的差异取决于上一个stage的reduce输出,所以如...
原创
发布博客 2018.07.29 ·
205 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

hive技术原理

什么是Hive?       Hive是建立在 Hadoop 上的数据仓库基础构架。它提供了一系列的工具,可以用来进行数据提取转化加载(ETL),这是一种可以存储、查询和分析存储在 Hadoop 中的大规模数据的机制。Hive 定义了简单的类 SQL 查询语言,称为 HQL,它允许熟悉 SQL 的用户查询数据。同时,这个语言也允许熟悉 MapReduce 开发者的开发自定义的 mapper 和...
原创
发布博客 2018.07.29 ·
265 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

mr数据倾斜优化

 减小数据倾斜的性能损失数据倾斜是数据中的常见情况。数据中不可避免地会出现离群值(outlier),并导致数据倾斜。这些离群值会显著地拖慢MapReduce的执行。常见的数据倾斜有以下几类:数据频率倾斜——某一个区域的数据量要远远大于其他区域。 数据大小倾斜——部分记录的大小远远大于平均值。在map端和reduce端都有可能发生数据倾斜。在map端的数据倾斜会让多样化的数据集的处理效率...
原创
发布博客 2018.07.29 ·
2863 阅读 ·
0 点赞 ·
0 评论 ·
4 收藏

mapreduce的 combiner 和groupping comparator

combiner:问题提出:众所周知,Hadoop框架使用Mapper将数据处理成一个<key,value>键值对,再网络节点间对其进行整理(shuffle),然后使用Reducer处理数据并进行最终输出。    在上述过程中,我们看到至少两个性能瓶颈:(引用)如果我们有10亿个数据,Mapper会生成10亿个键值对在网络间进行传输,但如果我们只是对数据求最大值,那么很明显...
原创
发布博客 2018.07.29 ·
365 阅读 ·
0 点赞 ·
0 评论 ·
3 收藏

mapreduce 原理

MapReduce各个执行阶段(1)MapReduce框架使用InputFormat模块做Map前的预处理,比如验证输入的格式是否符合输入定义;然后,将输入文件切分为逻辑上的多个InputSplit,InputSplit是MapReduce对文件进行处理和运算的输入单位,只是一个逻辑概念,每个InputSplit并没有对文件进行实际切割,只是记录了要处理的数据的位置和长度。(2)因为I...
原创
发布博客 2018.07.29 ·
397 阅读 ·
1 点赞 ·
0 评论 ·
1 收藏

spark基本架构原理

Apache Spark是一个围绕速度、易用性和复杂分析构建的大数据处理框架,最初在2009年由加州大学伯克利分校的AMPLab开发,并于2010年成为Apache的开源项目之一,与Hadoop和Storm等其他大数据和MapReduce技术相比,Spark有如下优势:Spark提供了一个全面、统一的框架用于管理各种有着不同性质(文本数据、图表数据等)的数据集和数据源(批量数据或实时的流数据)...
原创
发布博客 2018.07.24 ·
457 阅读 ·
0 点赞 ·
0 评论 ·
3 收藏
加载更多