lds_include-CSDN博客

原创 sqoop的job做到每次免密登录的方式

说明: sqoop执行任务的时候会提示执行密码，这样的话在实际执行的时候会相对来说很麻烦，所有需要建立密码文件并指定–password-file 文件，文件最后还需要存放在hdfs上，权限为400为只读权限执行过程：在本地建立存放密码的文件：echo -n "mysql中sqoop数据的操作员的密码" >sqoopPWD.pwd注意：这个文件里面不得有任何一个空格和换行，只能...

2019-07-11 09:56:38 466

原创 hive中的order by、sort by、distribute by、cluster by排序

hive中的排序说明：hive中有四种全局排序：order by、内部排序：sort by、分区排序：distribute by、组合排序：cluster by。order by(全局排序)说明：全局排序是在一个MapReduce中进行排序的。参数：ASC：是升序的意思和mysql一样，同时也是默认的参数。DESC：降序的意思和MySQL中一样。举例：查询...

2019-07-01 10:40:51 991

原创 hive的企业级优化

hive的企业级优化说明：以下是常见的六个调优项Fetch抓取说明：所谓fetch抓取hive中的某些查询可以不必使用mapreduce来计算，例如select * from emp这个语句就没有使用mapreduce ，这种情况下，hive可以简单的读取emp目录对应的数据文件。设置方法：设置地方：hive-default.xml<property>...

2019-07-01 10:39:28 307

原创 hive的存储格式TextFile、RCFile、ORC

hived的存储格式TextFile、RCFile、ORC说明：所谓的存储格式就是hive的数据在hdfs上存放的具体方式；通过下面的文件我们看出hive的存储格式是一共有六种，每一种都是由自己的规则。file_format: : SEQUENCEFILE | TEXTFILE -- (Default, depending on hive.default.fileformat...

2019-07-01 10:37:57 2675

原创 mapreduce的map端的分布式缓存

mapreduce的map端的分布式缓存必要性：有的时候我们需要完成一些类似于数据库的两表join的效果，这个时候就能够通过将其中的一个表提前加载到map中来，这个时候有了将一张表的数据缓存到内存中来，方便map的快速读取。这里有两种方法可以实现这个效果，下面就一个一个讲解。注意:想要将表缓存进内存中，那么表的大小不能够超过缓存的大小，否则就会造成数据溢出，影响数据的准确性。步骤：1...

2019-06-23 12:49:39 444

原创 mapreduce的自定义输出格式

mapreduce自定义输出格式概念：当普通的输出格式不能满足客户的要求的时候。因为普通的输出格式是将结果直接输出到一个单一的文件中去。现在有的需求是将处理的结果输出到数据库中，或者是将结果按照不同的需求输出到不同的文件中去。举例：现在有一个需求是将一个文件读取进来后，然后判断文件中的被切割的字符串是否含有要求的字符串，如果有的话就输出到对应的文件中去。源码解析：源码pu...

2019-06-21 16:59:11 772

原创 mapreduce的自定义输入格式

mapreduce自定义输入格式概念：当普通的输入格不能满足客户的要求的时候。因为普通的输入格式是将文件的每一行输入的数据作为一个value值然后进行map端的操作。现在有的需求是将数据库中的数据作为一个输入的格式，或者是将一个文件的整体作为一个输入格式等。举例：现在有一个需求是将一个目录下的所有小文件读取进来，将文件的整个内容都作为一个value值进行输入。出来map端的值是文件名...

2019-06-21 14:59:40 561 1

原创 mapreduce的自定义分组器

Mapreduce自定义分组器前提：有的时候我们想将符合条件的key值放在同一个组内；但是key的值是不同的将不会放进同一个组中。举例：想将一个学生的进校以后不同时间段的数学成绩按进校考试的时间进行一个成绩排序。如下效果//排序前的效果 stu1 time1 core1 stu1 time2 core stu1 time3 core3 stu2 time1 core1 stu2 t...

2019-06-18 17:55:50 813 1

原创 Kafka常用命令

Kafka常用命令开启和关闭kafka启动kafkanohup ./bin/kafka-server-start.sh ./config/server.properties &停止kafkabin/kafka-server-stop.sh关于topic创建topicbin/kafka-topics.sh --create --zookeeper localh...

2019-04-17 19:58:32 279

原创 Kafka组件

Kafka组件Kafka核心组件Topic ：消息根据Topic进行归Producer：发送消息者Consumer：消息接受者broker：每个kafka实例(server)Zookeeper：依赖集群保存meta信息。Kafka名词解释和工作方式Producer ：消息生产者，就是向kafka broker发消息的客户端。生产者复杂生产（采集）数据...

2019-04-17 19:57:45 361

原创 Kafka基础

Kafka基础什么是kafka在流式计算中，Kafka一般用来缓存数据，Storm通过消费Kafka的数据进行计算。KAFKA + STORM +REDISApache Kafka是一个开源消息系统，由Scala写成。是由Apache软件基金会开发的一个开源消息系统项目。Kafka最初是由LinkedIn开发，并于2011年初开源。2012年10月从Apache Incu...

2019-04-17 19:56:36 248

原创 Spark2.3.0解决Exception in thread "main" java.lang.IllegalArgumentException: Illegal pattern component

Spark2.3.0解决Exception in thread “main” java.lang.IllegalArgumentException: Illegal pattern component: XXX 报错出错的调用代码此问题出现在调用spark.read.json或者csv的时候出现。res.write .mode("append") .json("c://out")...

2019-04-16 10:55:02 4811

原创 spark的DataFrame常用操作

spark的DataFrame常用操作DSL风格语法查看DataFrame中的内容personDF.show查看DataFrame部分列中的内容personDF.select(personDF.col("name")).showpersonDF.select(col("name"), col("age")).showpersonDF.select("name").show...

2019-04-15 09:19:09 346

原创 Spark的DataFrame创建实例

Spark的DataFrame创建实例说明是一个分布式数据集（是一个数据描述），封装了RDD和Schema信息，底层还是调用的RDD，我们可以像操作二维表的方式进行操作，简单来说，DataFream就是RDD和Schema信息的结合体什么是DataFrames与RDD类似，DataFrame也是一个分布式数据容器。然而DataFrame更像传统数据库的二维表格，除了数据以外，还记录数...

2019-04-14 19:02:25 314

原创 Spark sql理论简介

Spark sql简介什么是spark sqlSpark SQL是Spark用来处理结构化数据的一个模块，它提供了一个编程抽象叫做DataFrame并且作为分布式SQL查询引擎的作用。了解Spark Sql的必要性我们知道hive，它是将Hive SQL转换成MapReduce然后提交到集群上执行，大大简化了编写MapReduce的程序的复杂性，由于MapReduce这种计算模型执行...

2019-04-14 17:02:13 166

原创 Spark连接mysql数据库的方法

Spark连接mysql数据库的方法引入pom文件在maven项目中的pom.xml中引入mysql连接的依赖  <dependency> <groupId>mysql</groupId> <artifactId>mysql-conn...

2019-04-13 17:23:21 624

原创 Spark的将IP转换为Long型的方法

Spark的将IP转换为Long型的方法ip格式192.168.111.4转换方法/** * 把IP转化为long类型的数据 * @param ip * @return */ def ip2Long(ip: String): Long = { val fragments = ip.split("[.]") var ipNum = 0L...

2019-04-13 17:13:15 493

原创 nginx服务器生成访问url格式设置

nginx服务器生成访问url格式设置配置文件编辑配置文件vi /etc/nginx/nginx.conf配置文件详情user root; #nginx的运行账号(rpm安装时会自动创建这个账号),也可以写成user nginx nginx表示用户和组worker_processes 10; #工作进程数(worker),一般等于cpu内核数或者两...

2019-04-13 17:08:30 981

原创 Spark2.0程序中的持久化数据到数据库中foreachPartition()方法报错

Spark2.0程序中的持久化数据到数据库中foreachPartition()方法报错出错的地方是foreachPartition(data2Mysql)中的方法data2Mysql报错代码val data2Mysql = (it:Iterable[(String, Int)]) => { var conn: Connection = null; var ps: ...

2019-04-13 16:55:23 526

原创 Spark中transformation和Action的RDD算子

Spark中transformation和Action有的区别区别transformationtransformation是在现有的RDD上通过一定方法转换生成新的RDD，转换时延时执行（lazy）的；actionactions是指在RDD上进行计算，得到返回结果给驱动程序或写入文件系统，触发job。综合执行了多次transformation，RDD并不一定会真正执行运算...

2019-04-13 11:03:27 412

原创 Spark的checkpoint

Spark的checkpoint什么时候需要做检查点有时候中间结果数据或者shuffle后的数据需要在以后的job中经常调用，此时需要做checkpoint，checkpoint的目的地推荐最好把数据checkpoint到HDFS，保证数据安全性的前提下也便于集群所有节点能够获取到目的提高运算效率保证数据的安全性步骤1、设置目录sc.setCh...

2019-04-13 09:45:03 186

原创 Spark的shuffle的Shuffle read和shuffle write过程

Spark的shuffle的Shuffle read和shuffle write过程在发生shuffle的过程中，会发生shuffle write和shuffle read。shuffle write：发生在shuffle之前，把要shuffle的数据写到磁盘为什么：为了保证数据的安全性，避免占用大量的内存shuffle read：发生在shuffle之后，下游RDD读取上...

2019-04-13 09:42:55 5058 2

转载 Spark中的Task，partitioner，executor，cores等相关概念

Spark中的Task，partitioner，executor，cores等相关概念说明输入多个hdfs文件，每个文件有多个block，当spark读取多个文件时，将多个block合并为一个输入分片（InputSplit，它是不能跨文件的），每个输入分片对应一个task，一个task会被分配到某个节点的一个executor上执行，每个executor上有多个cores（一个executo...

2019-04-12 23:14:23 1207

Spark的DAG什么是DAGDAG(Directed Acyclic Graph)叫做有向无环图，原始的RDD通过一系列的转换就就形成了DAG，根据RDD之间的依赖关系的不同将DAG划分成不同的Stage，对于窄依赖，partition的转换处理在Stage中完成计算。对于宽依赖，由于有Shuffle的存在，只能在parent RDD处理完成后，才能开始接下来的计算，因此宽依赖是划分Sta...

2019-04-12 19:31:14 428

原创 Spark的RDD缓存

Spark的RDD缓存说明Spark速度非常快的原因之一，就是在不同操作中可以在内存中持久化或缓存多个数据集。当持久化某个RDD后，每一个节点都将把计算的分片结果保存在内存中，并在对此RDD或衍生出的RDD进行的其他动作中重用。这使得后续的动作变得更加迅速。RDD相关的持久化和缓存，是Spark最重要的特征之一。可以说，缓存是Spark构建迭代式算法和快速交互式查询的关键。RDD缓存方式...

2019-04-12 17:24:29 245

原创 Spark中的Lineage血统

Spark中的Lineage血统说明RDD只支持粗粒度转换，即在大量记录上执行的单个操作。将创建RDD的一系列Lineage（即血统）记录下来，以便恢复丢失的分区。RDD的Lineage会记录RDD的元数据信息和转换行为，当该RDD的部分分区数据丢失时，它可以根据这些信息来重新运算和恢复丢失的数据分区。体现过程RDD在计算过程中，如果有一个RDD的分区信息丢失，该RDD会首先判断是否...

2019-04-11 11:18:59 642

原创 Spark中的shuffle能够调优的参数

Spark中的shuffle能够调优的参数属性名称默认值属性说明spark.reducer.maxSizeInFlight48mreduce task的buffer缓冲，代表了每个reduce task每次能够拉取的map side数据最大大小，如果内存充足，可以考虑加大，从而减少网络传输次数，提升性能spark.shuffle.blockTransferServ...

2019-04-10 22:32:20 313

原创 Spark的Shuffle过程

Spark的Shuffle过程说明shuffle操作，是在spark操作中调用了一些特殊算子才会触发的一种操作，shuffle操作，会导致大量的数据在不同的节点之间传输，由上可知，shuffle过程是spark中最复杂、最消耗性能的一种操作举例reduceByKey算子会将一个RDD中的每一个key对应的所有value都聚合成一个value，然后生成一个新的RDD，新...

2019-04-10 22:15:28 1733

原创 Spark计算模型

Spark计算模型一、弹性分布式数据集RDD1、什么是RDDRDD（Resilient Distributed Dataset）叫做分布式数据集，是Spark中最基本的数据抽象，它代表一个不可变、可分区、里面的元素可并行计算的集合。RDD具有数据流模型的特点：自动容错、位置感知性调度和可伸缩性。RDD允许用户在执行多个查询时显式地将工作集缓存在内存中，后续的查询能够重用工作集，这极大地提升...

2019-04-08 17:04:29 600

原创 Spark是什么、能干什么、特点-一目了然

Spark是什么、能干什么、特点-一目了然什么是Spark（官网：http://spark.apache.org）Spark是一种快速、通用、可扩展的大数据分析引擎，2009年诞生于加州大学伯克利分校AMPLab，2010年开源，2013年6月成为Apache孵化项目，2014年2月成为Apache顶级项目。目前，Spark生态系统已经发展成为一个包含多个子项目的集合，其中包含SparkS...

2019-04-08 16:21:45 41801

原创 Scala&Hadoop&Spark的maven的全量集的pom

Scala&Hadoop&Spark的maven的全量集的pom.xml文件<?xml version="1.0" encoding="UTF-8"?><project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-i...

2019-04-02 20:38:19 424

原创 Scala中的map和flatMap

Scala中的map和flatMaplist中map和flatMap的实现：map源码abstract class List[T]{ def map[U](f: T => U): List[U] = this match { case first :: last = f(first) :: last.map(f) case Nil = Nil }说明：map...

2019-04-02 20:33:33 387

原创 Spark集群上跑wordcount

Spark集群上跑wordcount1、创建WordCount程序的jar（maven项目）编写SparkWC.scala文件import org.apache.spark.rdd.RDDimport org.apache.spark.{SparkConf, SparkContext}/** * scala：是一个强类型语言 * 模板代码 */object SparkWC...

2019-04-02 17:06:00 398

原创 Sqoop的数据导入&导出

Sqoop的数据导入、导出sqoop导入就是从关系型数据库（mysql）的数据导入到 Hadoop 与其相关的系统 (如HBase和Hive)中。1 语法$ sqoop import (generic-args) (import-args) 2 案例测试之前先在mysql中准备数据：create database sqoop； --创建名为sqoop的数据库use sq...

2019-03-31 13:35:51 319

原创 flume原理

flume原理1、Flume OGFlume逻辑上分三层架构：Agent，Collector，Storage。Flume OG采用了多Master的方式。为了保证配置数据的一致性，Flume引入了ZooKeeper，用于保存配置数据，ZooKeeper本身可保证配置数据的一致性和高可用，另外，在配置数据发生变化时，ZooKeeper可以通知Flume Master节点。Flume ...

2019-03-31 09:34:05 503

原创 Flume案例-Avro&Exec&Exec&Syslogtcp&JSONHandler&HDFS sink&File Roll Sink&channels

flume案例-Avro、Exec、Exec、Syslogtcp、JSONHandler、HDFS sink、File Roll Sink、channels1、AvroAvro可以发送一个给定的文件给Flume，Avro 源使用AVRO RPC机制。创建agent配置文件在flume_home/conf目录下创建一个名为avro.conf的文件，内容如下a1.sources = r1...

2019-03-31 09:29:11 481

原创 Linux的shell编程（六）-shell的简单调试

Linux的shell编程（六）-shell的简单调试说明: 任何语编程都有对应的调试工具？？如java有Debug、mysql有调试工具、js有调试工具等。shell也不例外shell的语法检测：相当于java的编译shell语法检测：sh -n ./test.sh (sh是/bin/sh 是系统提供的可执行脚本)shell的普通调试：sh -x ./test....

2019-03-30 18:26:30 406

原创 Linux的shell编程（五）-方法(函数function)

Linux的shell编程（五）-方法(函数function)shell中函数的定义格式如下：[ function ] funname (){ action; [return int;]}注：1、可以带function fun() 定义，也可以直接fun() 定义,不带任何参数。2、参数返回，可以显示加：return 返回，如果不加，将以最后一条命令运行结果，...

2019-03-30 15:55:42 870

原创 Linux的shell编程（四）-条件控制

Linux的shell编程（四）-条件控制a、if条件控制写成一行就得这么写：if [ ] ; then echo "" ;fi单一的if：(表达式必须有空格)if []thencmd1fi单一的if else :(表达式必须有空格,else后不能有then)if []thencmd1elsecmd2fiif else-if else :(elif后必须有th...

2019-03-30 15:00:37 1033

原创 Linux的shell编程（三）- 基本运算符

Linux的shell编程（三）-基本运算符1、Shell 基本运算符Shell 和其他编程语言一样，支持多种运算符，包括：算数运算符关系运算符布尔运算符字符串运算符文件运算符原生bash不支持简单的数学运算，但是可以通过其他命令来实现，例如 awk 和 expr，expr 最常用。expr 是一款表达式计算工具，使用它能完成表达式的求值操作。例如，两个数相加(注意使...

2019-03-30 12:40:01 329

bashdb-4.1-0.5.tar.gz

空空如也