2018年07月_IT影风

转载 Flume的描述和使用

一，Flume的描述1、Flume的概念Flume是分布式的日志收集系统，它将各个服务器中的数据收集起来并送到指定的地方去，比如说送到HDFS，Kafka,MySql;简单来说flume就是收集日志的。 2、Event的概念 Flume中event的相关概念：Flume的核心是把数据从数据源(source)收集过来，在将收集到的数据送到指定的目的地(sink)。为了保证输送...

2018-07-26 09:55:28 1160

Spark共享变量的描述（http://spark.apache.org/docs/1.6.3/programming-guide.html#shared-variables） Normally, when a function passed to a Spark operation (such as map or reduce) is executed on a remote cluste...

2018-07-25 10:19:10 3025

原创 Strom的描述和安装

一，Strom的特点1，架构：1.1，Nimbus1.2，Supervisor1.3，Worker2.2，编程模型：2.1，DAG2.2，Spout2.3，Bolt3，数据传输：3.1，Zmq Zmq也是开源的消息传递的框架，虽然叫mq，但它并不是一个message queue，而是一个封装的比较好的3.2，Netty netty是NIO...

2018-07-23 23:11:01 881

原创 Kafka的描述和安装

一，Kafka的特性1，消息列队的特点2，生产者消费者模式3，先进先出（FIFO）顺序保证4，可靠性保证 4.1,自己不丢数据 4.2,消费者不丢数据：“至少一次，严格一次”5，至少一次就是可能会有两次，会重6，严格一次机制就会负责一点二，Kafka的架构1，producer：消息生存者2，consumer：消息消费者3，broker：...

2018-07-23 12:10:57 522

原创 Spark的RDD操作和描述_1

本次博客分发三大部分一，Spark的RDD用JAVA的实现二，Spark的RDD的说明三，Spark的Scala的实现1，Map算子1.1 Java代码实现package com.lyl.it;import java.util.Arrays;import java.util.List;import org.apache.spark.SparkConf;impo...

2018-07-19 11:14:50 452

原创 Spark DAG优化的解读

一，Spark专业术语的解析1，Application基于Spark的用户程序，包含了driver程序和集群上的executor2，Driver Program运行main函数并且新建SparkContext的程序3，Cluster Manager在集群上获取资源的外部服务(例如standalone,Mesos,Yarn)4，Worker Node是集群中任何可以运行用代码的节点5...

2018-07-15 16:15:08 2191

原创 Spark RDD容错率描述

1，Spark RDD如果其中的RDD计算错误，重算它会找与之前的RDD2，Spark RDD如果RDD做了缓存策略，计算错误的RDD重算就会从缓存里面找3，Spark RDD如果Lineage过长对RDD做doCheckpoint()，计算错误的RDD重算就会从磁盘里面找到...

2018-07-14 16:44:53 487

原创 Spark缓存策略的优化

一，Spark缓存优化的方案class StorageLevel private( private var _useDisk:Boolean,//缓存磁盘 private var _useMemory:Boolean,//缓存内存 private var _useOffHead:Boolean,//缓存远离堆内存 private var _deserialized:Bool...

2018-07-14 09:12:22 529

原创 Spark运行时程序调度

一，Spark运行时程序调度 1，Spark应用程序会在一个物理节点上有驱动程序（Driver） 2，驱动程序（Driver）会分发每个tasks到Worker节点 3，Worker节点就会返回result到Dirver节点二，Spark程序运行流程 1，分布式文件系统（File system）--加载数据集（RDD） 2，transform...

2018-07-13 22:41:52 232

原创 Spark RDD的概念

Resilient Distributed Dataset ：弹性分布式数据集五大特性：1，A list of partitions 是由一系列一片连续的数据组成的；一个partitions只能是在一个节点上；一个节点可以有多个partitions；每个partitions的数据是不一样的；2，A function for computing each split 一般情...

2018-07-11 21:59:51 604

原创 Spark并不都是基于内存计算

大多数的人会认为Spark都是基于内存的计算的，但是基于如下两个情况，Spark会落地于磁盘1，Spark避免不了shuffle2，如果数据过大（比服务器的内存还大）也会落地于磁盘...

2018-07-11 21:06:48 2649

原创 Hadoop角色的作用

NameNode（NN）作用：主要是接受客户端的读写服务但同时也保存metadate信息。 NameNode保存metadate信息包括 1，文件owership和permissions 2，文件包含哪些块 3，Block保存在哪个DataNod...

2018-07-10 20:27:31 921

原创如何编写高效的SQL

1，在select子句中只指定必须的列，不要滥用*2，避免在索引列上用函数或表达式避免在索引列上用函数或表达式3，避免使用前置通配符4，若可以用union all，就避免用union若可以用union all，就避免用union5，避免对索引列用not,<>,!=6，尽量用where代替having（需要过滤分组结果时，尽量用Where而非having子句，但where子句中不能使用分...

2018-07-09 13:02:15 262

原创 MapReduce计算框架

下面是MapReduce的流程架构图：下面是MapReduce简单的word count的流程下面是MapReduce简单的word count的代码1，主类import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.fs.FileSystem;import org.apache.hadoop.fs.Path;im...

2018-07-09 11:26:13 291

原创 Spark on Yarn和MapReduce on Yarn区别

Apache Spark的高性能一定程度上取决于它采用的异步并发模型（这里指server/driver端采用的模型），这与Hadoop 2.X（包括YARN和MapReduce）是一致的。Hadoop2.X自己实现了类似Actor的异步并发模型，实现方式是epoll+状态机，而Apache Spark则直接采用了开源软件Akka，该软件实现了Actor模型，性能非常高。尽管二者在server端...

2018-07-09 10:04:05 936

原创 Hadoop2.X中的描述

一，Hadoop 2.x产生背景1，Hadoop 1.0中HDFS和MapReduce在高可用、扩展性等方面存在问题2，HDFS存在的问题 NameNode单点故障，难以应用于在线场景 NameNode压力过大，且内存受限，影响系统扩展性3，MapReduce存在的问题 JobTracker单点故障 JobTracker访问压力大，影响系统扩展性难以支持除...

2018-07-08 10:03:57 342

原创 HDFS读写流程

2018-07-07 22:52:55 145

原创 Spark的安装和测试

部署是环境为3台服务器，里面安装了相关的hadoop集群，安装的spark1.6.3总共分为如下安装方式1，单机模式测试安装2，Standalone集群模式3，Standalone集群HA模式4，Yarn集群模式一，单机模式测试安装1，解压安装包[root@hadoop01 bigdata]# pwd/home/tools/bigdata[root@h...

2018-07-07 18:21:08 4523

原创 Liunx保持源数据5天的定时任务

例如：对/home/tuomingftp/data/alarm/目录下的tm_alarm_开头的数据进行的5天的保存1，创建shell脚本[tuomingftp@hadoop02 sh]$ vi auto_del_day5.sh [tuomingftp@hadoop02 sh]$ cat auto_del_day5.sh find /home/tuomingftp/data/alarm -mt...

2018-07-05 21:47:09 210

原创 HDFS中的一些缺点和优点

HDFS优点：一，高容错性1，数据自动保存多个副本2，副本丢失后，自动恢复二，适合批处理1，移动计算而非数据2，数据位置暴露给计算框架三，适合大数据处理1，GB，TB，甚至PB级数据2，百万规模以上的文件数量3，10K+节点四，可构建在廉价机器上1，通过多副本提高可靠性2，提供了容错和恢复机制HDFS缺点：一，低延迟数据访问1，比如毫秒级2，低延迟与高吞吐率二，小文件存取1，占用NameNode大...

2018-07-03 11:20:17 8197

原创 Sqoop的安装和基本应用

本次大数据环境有三个节点，所扮演的角色如下：hadoop01所扮演的角色如下：[root@hadoop01 ~]# jps18186 DataNode18606 DFSZKFailoverController5780 Jps17905 QuorumPeerMain18708 ResourceManager18068 NameNode18400 JournalNode192...

2018-07-03 08:30:54 201

转载 Hbase shell的基本操作

HBase Shell一些基本操作命令的说明：base shell命令描述 alter修改列族（column family）模式count统计表中行的数量create创建表describe显示表相关的详细信息delete删除指定对象的值（可以为表，行，列对应的值，另外也可以指定时间戳的值）deleteall删除指定行的所有元素值disable使表无效drop删除表enable使表有效exist...

2018-07-02 17:25:33 2509

原创 Hive中关于表join....on....的问题

Hive中关于表join....on....的问题1，判断每张表关联的字段是否唯一或者是多个字段组合关联是否是唯一2，判断每张表关联的字段是否有空值和null 帅选字段为空值的的操作关联的字段 index is not null 关联的字段 index!='' 关联的字段 index!='null' 关联的字段 index!='NULL'如果字段join...on...用不好...

2018-07-02 10:41:59 1403

IT影风的博客