2019年01月_江南阁

原创 HBase神优化

高可用在 HBase 中 Hmaster 负责监控 RegionServer 的生命周期，均衡 RegionServer 的负载，如果 Hmaster 挂掉了，那么整个 HBase 集群将陷入不健康的状态，并且此时的工作状态并不会维持太久。所以 HBase 支持对 Hmaster 的高可用配置。zookeeper优化session.timeout设置为30秒预分区每一个reg...

2019-01-21 16:06:14 88

原创 Spark Streaming--背压机制

背压机制默认情况下，Spark Streaming通过Receiver以生产者生产数据的速率接收数据，计算过程中会出现batch processing time > batch interval的情况，其中batch processing time 为实际计算一个批次花费时间， batch interval为Streaming应用设置的批处理间隔。这意味着Spark Streaming的...

2019-01-21 16:05:53 2377

原创 Spark SQL--执行模式

DSL风格语法scala> val peopleDF = rdd.map{x => val strs=x.split(",");People(strs(0),strs(1).trim.toInt)}.toDFpeopleDF: org.apache.spark.sql.DataFrame = [name: string, age: int]scala> peopleDF...

2019-01-04 15:32:56 402

原创 Spark RDD--数据类型转换

将RDD，DataFrame，DataSet之间进行互相转换RDD -》 DataFrame 直接手动转换 scala> val people = spark.read.json("/opt/apps/Spark/spark-2.2.2-bin-hadoop2.7/examples/src/main/resources/people.json")people: org.ap...

2019-01-04 15:32:07 9156

原创 Spark RDD--1 WordCount

简单的WordCount用scala编写（用的本地模式）package com.jiangnan.sparkimport org.apache.spark.rdd.RDDimport org.apache.spark.{SparkConf, SparkContext}object ScalaWordCount { def main(args: Array[String]): U...

2019-01-04 15:31:34 430

原创 Spark RDD--2 计算日志相关数据

需求：日志格式：IP 命中率响应时间请求时间请求方法请求URL 请求协议状态吗响应大小 referer 用户代理1、计算每一个IP的访问次数(114.55.227.102,9348) 2、计算每一个视频访问的IP数视频：141081.mp4 独立IP数:2393 3、统计每小时CDN的流量00时 CDN流量=14G 计算方案：（注释部分为分布执行，未注释部...

2019-01-04 15:30:41 353

原创 Spark SQL--商品订单案例

需求统计所有订单中每年的销售单数、销售总额统计每年最大金额订单的销售额统计每年最畅销货品（哪个货品销售额amount在当年最高，哪个就是最畅销货品）我们首先需要在scala里连接hive，然后创建这三个表，导入数据。创建以及导入数据与操作Hive一致。在Spark SQL中，可以完全接管Hive，一切操作都可以在spark中实现。主要是将Hive的一个配置文件hive-site....

2019-01-04 15:29:50 1362

原创 Spark RDD-DataFrame-DataSet三者异同

三者的共性RDD、DataFrame、Dataset全都是spark平台下的分布式弹性数据集，为处理超大型数据提供便利三者都有惰性机制，在进行创建、转换，如map方法时，不会立即执行，只有在遇到Action如foreach时，三者才会开始遍历运算，极端情况下，如果代码里面有创建、转换，但是后面没有在Action中使用对应的结果，在执行时会被直接跳过. 三者都会根据spark的内存情况自动...

2019-01-04 15:28:34 770

原创 Hive优化

Fetch 抓取Fetch 抓取是指，Hive 中对某些情况的查询可以不必使用 MapReduce 计算。例如： SELECT * FROM student;在这种情况下，Hive 可以简单地读取 student 对应的存储目录下的文件，然后输出查询结果到控制台。 hive.fetch.task.conversion属性的设置该属性默认为 more 以后，在全局查找、字段查找、limit ...

2019-01-04 15:28:10 94

原创 Spark Streaming--3 Spark 与 Kafka集成

引入jar包依赖<dependency> <groupId>org.apache.spark</groupId> <artifactId>spark-streaming-kafka-0-10_2.11</artifactId> <version>${spark.version}</versio...

2019-01-02 17:19:11 422

原创 Spark Streaming--2 自定义数据源

通过继承Receiver，并实现onStart、onStop方法来自定义数据源采集。需要自己开一个sockect,，然后输入内容。nc -lk master 8888package com.jiangnan.sparkimport java.io.{BufferedReader, InputStreamReader}import java.net.Socketimport o...

2019-01-02 17:18:54 671 2

原创 Spark Streaming--1 文件默认数据源

文件数据流：能够读取所有HDFS API兼容的文件系统文件，通过fileStream方法进行读取 Spark Streaming 将会监控 dataDirectory 目录并不断处理移动进来的文件，记住目前不支持嵌套目录。文件需要有相同的数据格式文件进入 dataDirectory的方式需要通过移动或者重命名来实现。一旦文件移动进目录，则不能再修改，即便修改了也不会读取...

2019-01-02 17:18:40 221

原创 Spark Streaming--Update

例如各大商城实时显示数据的案例：package com.jiangnan.sparkimport org.apache.spark.SparkConfimport org.apache.spark.streaming.{Seconds, StreamingContext}object TestStreamUpdate extends App { //配置对象 val con...

2019-01-02 17:18:21 143

原创 Spark Streaming--开窗函数over()

over（）开窗函数在使用聚合函数后，会将多行变成一行，而开窗函数是将一行变成多行；并且在使用聚合函数后，如果要显示其他的列必须将列加入到group by中，而使用开窗函数后，可以不使用group by，直接将所有信息显示出来。开窗函数适用于在每一行的最后一列添加聚合函数的结果。开窗函数作用为每条数据显示聚合信息.(聚合函数() over()) ...

2019-01-02 17:17:52 1993

江南阁