自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

江南阁

数据世界 数据人生

  • 博客(14)
  • 收藏
  • 关注

原创 HBase神优化

高可用在 HBase 中 Hmaster 负责监控 RegionServer 的生命周期,均衡 RegionServer 的负载,如果 Hmaster 挂掉了,那么整个 HBase 集群 将陷入不健康的状态,并且此时的工作状态并不会维持太久。所以 HBase 支持对 Hmaster 的高可用配置。zookeeper优化session.timeout设置为30秒预分区每一个reg...

2019-01-21 16:06:14 88

原创 Spark Streaming--背压机制

背压机制默认情况下,Spark Streaming通过Receiver以生产者生产数据的速率接收数据,计算过程中会出现batch processing time > batch interval的情况,其中batch processing time 为实际计算一个批次花费时间, batch interval为Streaming应用设置的批处理间隔。这意味着Spark Streaming的...

2019-01-21 16:05:53 2377

原创 Spark SQL--执行模式

DSL风格语法scala> val peopleDF = rdd.map{x => val strs=x.split(",");People(strs(0),strs(1).trim.toInt)}.toDFpeopleDF: org.apache.spark.sql.DataFrame = [name: string, age: int]scala> peopleDF...

2019-01-04 15:32:56 402

原创 Spark RDD--数据类型转换

将RDD,DataFrame,DataSet之间进行互相转换RDD -》 DataFrame 直接手动转换 scala> val people = spark.read.json("/opt/apps/Spark/spark-2.2.2-bin-hadoop2.7/examples/src/main/resources/people.json")people: org.ap...

2019-01-04 15:32:07 9156

原创 Spark RDD--1 WordCount

简单的WordCount用scala编写(用的本地模式)package com.jiangnan.sparkimport org.apache.spark.rdd.RDDimport org.apache.spark.{SparkConf, SparkContext}object ScalaWordCount { def main(args: Array[String]): U...

2019-01-04 15:31:34 430

原创 Spark RDD--2 计算日志相关数据

需求:日志格式:IP 命中率 响应时间 请求时间 请求方法 请求URL    请求协议 状态吗 响应大小 referer 用户代理1、计算每一个IP的访问次数(114.55.227.102,9348) 2、计算每一个视频访问的IP数视频:141081.mp4 独立IP数:2393 3、统计每小时CDN的流量00时 CDN流量=14G 计算方案:(注释部分为分布执行,未注释部...

2019-01-04 15:30:41 353

原创 Spark SQL--商品订单案例

需求统计所有订单中每年的销售单数、销售总额 统计每年最大金额订单的销售额 统计每年最畅销货品(哪个货品销售额amount在当年最高,哪个就是最畅销货品)我们首先需要在scala里连接hive,然后创建这三个表,导入数据。创建以及导入数据与操作Hive一致。在Spark SQL中,可以完全接管Hive,一切操作都可以在spark中实现。主要是将Hive的一个配置文件hive-site....

2019-01-04 15:29:50 1362

原创 Spark RDD-DataFrame-DataSet三者异同

三者的共性RDD、DataFrame、Dataset全都是spark平台下的分布式弹性数据集,为处理超大型数据提供便利 三者都有惰性机制,在进行创建、转换,如map方法时,不会立即执行,只有在遇到Action如foreach时,三者才会开始遍历运算,极端情况下,如果代码里面有创建、转换,但是后面没有在Action中使用对应的结果,在执行时会被直接跳过. 三者都会根据spark的内存情况自动...

2019-01-04 15:28:34 770

原创 Hive优化

Fetch 抓取Fetch 抓取是指,Hive 中对某些情况的查询可以不必使用 MapReduce 计算。例如: SELECT * FROM student;在这种情况下,Hive 可以简单地读取 student 对应的存储目录下 的文件,然后输出查询结果到控制台。 hive.fetch.task.conversion属性的设置 该属性默认为 more 以后,在全局查找、字段查找、limit ...

2019-01-04 15:28:10 94

原创 Spark Streaming--3 Spark 与 Kafka集成

引入jar包依赖<dependency> <groupId>org.apache.spark</groupId> <artifactId>spark-streaming-kafka-0-10_2.11</artifactId> <version>${spark.version}</versio...

2019-01-02 17:19:11 422

原创 Spark Streaming--2 自定义数据源

通过继承Receiver,并实现onStart、onStop方法来自定义数据源采集。需要自己开一个sockect,,然后输入内容。nc -lk master 8888package com.jiangnan.sparkimport java.io.{BufferedReader, InputStreamReader}import java.net.Socketimport o...

2019-01-02 17:18:54 671 2

原创 Spark Streaming--1 文件默认数据源

文件数据流:能够读取所有HDFS API兼容的文件系统文件,通过fileStream方法进行读取        Spark Streaming 将会监控 dataDirectory 目录并不断处理移动进来的文件,记住目前不支持嵌套目录。文件需要有相同的数据格式 文件进入 dataDirectory的方式需要通过移动或者重命名来实现。 一旦文件移动进目录,则不能再修改,即便修改了也不会读取...

2019-01-02 17:18:40 221

原创 Spark Streaming--Update

例如各大商城实时显示数据的案例:package com.jiangnan.sparkimport org.apache.spark.SparkConfimport org.apache.spark.streaming.{Seconds, StreamingContext}object TestStreamUpdate extends App { //配置对象 val con...

2019-01-02 17:18:21 143

原创 Spark Streaming--开窗函数over()

over()开窗函数 在使用聚合函数后,会将多行变成一行,而开窗函数是将一行变成多行; 并且在使用聚合函数后,如果要显示其他的列必须将列加入到group by中,而使用开窗函数后,可以不使用group by,直接将所有信息显示出来。 开窗函数适用于在每一行的最后一列添加聚合函数的结果。 开窗函数作用 为每条数据显示聚合信息.(聚合函数() over()) ...

2019-01-02 17:17:52 1993

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除