IT影风
码龄9年
关注
提问 私信
  • 博客:164,018
    社区:767
    164,785
    总访问量
  • 37
    原创
  • 2,139,952
    排名
  • 22
    粉丝
  • 0
    铁粉

个人简介:希望你我一样,也是IT爱好者,像风一样,如影随风。

IP属地以运营商信息为准,境内显示到省(区、市),境外显示到国家(地区)
IP 属地:韩国
  • 加入CSDN时间: 2016-07-14
博客简介:

IT影风的博客

查看详细资料
个人成就
  • 获得33次点赞
  • 内容获得10次评论
  • 获得244次收藏
创作历程
  • 36篇
    2018年
  • 3篇
    2017年
成就勋章
兴趣领域 设置
  • 大数据
    hbasehadoophiveflumeflinkclouderasqoop大数据
  • 微软技术
    sql
创作活动更多

超级创作者激励计划

万元现金补贴,高额收益分成,专属VIP内容创作者流量扶持,等你加入!

去参加
  • 最近
  • 文章
  • 代码仓
  • 资源
  • 问答
  • 帖子
  • 视频
  • 课程
  • 关注/订阅/互动
  • 收藏
搜TA的内容
搜索 取消

Java当中使用TreeMap进行WordCount并且排序

注:JDK要使用1.8以上的package com.lyl.it;import static com.lyl.it.Common.getValueComparator;import java.util.ArrayList;import java.util.Collections;import java.util.List;import java.util.Map;import...
原创
发布博客 2018.08.30 ·
428 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

Spark的RDD操作和描述_2

本次博客分发三大部分一,Spark的RDD用JAVA的实现二,Spark的RDD的说明三,Spark的Scala的实现1, Cartesian算子1.1,Java代码实现package com.lyl.it;import java.util.Arrays;import java.util.List;import org.apache.spark.SparkCon...
原创
发布博客 2018.08.02 ·
441 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

Flume的描述和使用

一,Flume的描述1、Flume的概念Flume是分布式的日志收集系统,它将各个服务器中的数据收集起来并送到指定的地方去,比如说送到HDFS,Kafka,MySql;简单来说flume就是收集日志的。 2、Event的概念   Flume中event的相关概念:Flume的核心是把数据从数据源(source)收集过来,在将收集到的数据送到指定的目的地(sink)。为了保证输送...
转载
发布博客 2018.07.26 ·
1189 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

Spark共享变量

Spark共享变量的描述(http://spark.apache.org/docs/1.6.3/programming-guide.html#shared-variables)  Normally, when a function passed to a Spark operation (such as map or reduce) is executed on a remote cluste...
原创
发布博客 2018.07.25 ·
3041 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

Strom的描述和安装

一,Strom的特点1,架构:1.1,Nimbus1.2,Supervisor1.3,Worker2.2,编程模型:2.1,DAG2.2,Spout2.3,Bolt3,数据传输:3.1,Zmq         Zmq也是开源的消息传递的框架,虽然叫mq,但它并不是一个message queue,而是一个封装的比较好的3.2,Netty       netty是NIO...
原创
发布博客 2018.07.23 ·
902 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

Kafka的描述和安装

一,Kafka的特性1,消息列队的特点2,生产者消费者模式3,先进先出(FIFO)顺序保证4,可靠性保证   4.1,自己不丢数据   4.2,消费者不丢数据:“至少一次,严格一次”5,至少一次就是可能会有两次,会重6,严格一次机制就会负责一点 二,Kafka的架构1,producer:消息生存者2,consumer:消息消费者3,broker:...
原创
发布博客 2018.07.23 ·
540 阅读 ·
0 点赞 ·
0 评论 ·
1 收藏

Spark的RDD操作和描述_1

本次博客分发三大部分一,Spark的RDD用JAVA的实现二,Spark的RDD的说明三,Spark的Scala的实现1,Map算子1.1 Java代码实现package com.lyl.it;import java.util.Arrays;import java.util.List;import org.apache.spark.SparkConf;impo...
原创
发布博客 2018.07.19 ·
467 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

Spark DAG优化的解读

一,Spark专业术语的解析1,Application基于Spark的用户程序,包含了driver程序和集群上的executor2,Driver Program运行main函数并且新建SparkContext的程序3,Cluster Manager在集群上获取资源的外部服务(例如standalone,Mesos,Yarn)4,Worker Node是集群中任何可以运行用代码的节点5...
原创
发布博客 2018.07.15 ·
2243 阅读 ·
1 点赞 ·
0 评论 ·
3 收藏

Spark RDD容错率描述

1,Spark RDD如果其中的RDD计算错误,重算它会找与之前的RDD2,Spark RDD如果RDD做了缓存策略,计算错误的RDD重算就会从缓存里面找3,Spark RDD如果Lineage过长对RDD做doCheckpoint(),计算错误的RDD重算就会从磁盘里面找到...
原创
发布博客 2018.07.14 ·
510 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

Spark缓存策略的优化

一,Spark缓存优化的方案class StorageLevel private( private var _useDisk:Boolean,//缓存磁盘 private var _useMemory:Boolean,//缓存内存 private var _useOffHead:Boolean,//缓存远离堆内存 private var _deserialized:Bool...
原创
发布博客 2018.07.14 ·
555 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

Spark运行时程序调度

一,Spark运行时程序调度       1,Spark应用程序会在一个物理节点上有驱动程序(Driver)       2,驱动程序(Driver)会分发每个tasks到Worker节点       3,Worker节点就会返回result到Dirver节点二,Spark程序运行流程      1,分布式文件系统(File system)--加载数据集(RDD)      2,transform...
原创
发布博客 2018.07.13 ·
251 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

Spark RDD的概念

Resilient Distributed Dataset :弹性分布式数据集五大特性:1,A list of partitions   是由一系列一片连续的数据组成的;   一个partitions只能是在一个节点上;   一个节点可以有多个partitions;   每个partitions的数据是不一样的;2,A function for computing each split   一般情...
原创
发布博客 2018.07.11 ·
628 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

Spark并不都是基于内存计算

大多数的人会认为Spark都是基于内存的计算的,但是基于如下两个情况,Spark会落地于磁盘1,Spark避免不了shuffle2,如果数据过大(比服务器的内存还大)也会落地于磁盘...
原创
发布博客 2018.07.11 ·
2689 阅读 ·
0 点赞 ·
0 评论 ·
2 收藏

Hadoop角色的作用

NameNode(NN)作用:主要是接受客户端的读写服务但同时也保存metadate信息。                     NameNode保存metadate信息包括                    1,文件owership和permissions                    2,文件包含哪些块                    3,Block保存在哪个DataNod...
原创
发布博客 2018.07.10 ·
990 阅读 ·
0 点赞 ·
0 评论 ·
1 收藏

如何编写高效的SQL

1,在select子句中只指定必须的列,不要滥用*2,避免在索引列上用函数或表达式避免在索引列上用函数或表达式3,避免使用前置通配符4,若可以用union all,就避免用union若可以用union all,就避免用union5,避免对索引列用not,<>,!=6,尽量用where代替having(需要过滤分组结果时,尽量用Where而非having子句,但where子句中不能使用分...
原创
发布博客 2018.07.09 ·
283 阅读 ·
1 点赞 ·
0 评论 ·
0 收藏

MapReduce计算框架

下面是MapReduce的流程架构图:下面是MapReduce简单的word count的流程下面是MapReduce简单的word count的代码1,主类import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.fs.FileSystem;import org.apache.hadoop.fs.Path;im...
原创
发布博客 2018.07.09 ·
315 阅读 ·
0 点赞 ·
0 评论 ·
1 收藏

Spark on Yarn和MapReduce on Yarn区别

  Apache Spark的高性能一定程度上取决于它采用的异步并发模型(这里指server/driver端采用的模型),这与Hadoop 2.X(包括YARN和MapReduce)是一致的。Hadoop2.X自己实现了类似Actor的异步并发模型,实现方式是epoll+状态机,而Apache Spark则直接采用了开源软件Akka,该软件实现了Actor模型,性能非常高。尽管二者在server端...
原创
发布博客 2018.07.09 ·
964 阅读 ·
0 点赞 ·
0 评论 ·
1 收藏

Hadoop2.X中的描述

一,Hadoop 2.x产生背景1,Hadoop 1.0中HDFS和MapReduce在高可用、扩展性等方面存在问题2,HDFS存在的问题     NameNode单点故障,难以应用于在线场景     NameNode压力过大,且内存受限,影响系统扩展性3,MapReduce存在的问题     JobTracker单点故障     JobTracker访问压力大,影响系统扩展性     难以支持除...
原创
发布博客 2018.07.08 ·
361 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

HDFS读写流程

原创
发布博客 2018.07.07 ·
159 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

Spark的安装和测试

部署是环境为3台服务器 ,里面安装了相关的hadoop集群,安装的spark1.6.3总共分为如下安装方式1,单机模式测试安装2,Standalone集群模式3,Standalone集群HA模式4,Yarn集群模式 一,单机模式测试安装1,解压安装包[root@hadoop01 bigdata]# pwd/home/tools/bigdata[root@h...
原创
发布博客 2018.07.07 ·
4571 阅读 ·
0 点赞 ·
0 评论 ·
3 收藏
加载更多