streaming
文章平均质量分 53
数据china
这个作者很懒,什么都没留下…
展开
-
sparkStreaming的工作原理
架构:为什么使用kafka?1.kafka可以存储海量中间数据,防止streaming崩溃。2.不用关心数据的源是什么,只要从kakfa提取数据可以,提供统一interface。3.Kafka具有persistence功能,可以指定时间段内的数据(非常重要的功能),间接的把流式处理变为离线数据分析。4.Kafka采用zero-copy,一次读入内核,以后都是从内核直原创 2016-05-27 16:04:27 · 463 阅读 · 0 评论 -
Spark Streaming+Spark SQL
1.代码 categoryUserClickLogsDStream.foreachRDD { rdd => {里面可以写sql的代码}}原创 2016-05-27 16:19:15 · 269 阅读 · 0 评论 -
Spark Streaming的foreachRDD把处理后的数据写入外部存储系统中
1.代码 dstream.foreachRDD { rdd => rdd.foreachPartition { partitionOfRecords => // ConnectionPool is a static, lazily initialized pool of connections val connection = ConnectionPool.get原创 2016-05-27 16:18:33 · 543 阅读 · 0 评论 -
Spark Streaming的window操作实战模拟新浪微博、百度、京东等热点搜索词案例实战
1.代码: val conf =new SparkConf(); conf.setAppName("OnlineHottestItems"); conf.setMaster("spark://Master:7077"); /** * 此处设置Batch Interval是在Spark Streaming中生成基本job的时间单位原创 2016-05-27 16:18:04 · 332 阅读 · 0 评论 -
SparkStreaming 实现广告计费系统中在线黑名单过滤实战
1. 代码 val conf =new SparkConf() //创建SparkConf对象 conf.setAppName("OnlineBlackListFilter")//设置应用程序的名称,在程序运行的监控界面可以看到名称 conf.setMaster("spark://Master:7077")//此时,程序在Spark集原创 2016-05-27 16:17:31 · 547 阅读 · 0 评论 -
SparkStreaming updateStateByKey 基本操作
1.代码 SparkConf conf = new SparkConf().setMaster("local[2]").setAppName("UpdateStateByKeyDemo");JavaStreamingContext jsc = new JavaStreamingContext(conf, Durations.seconds(5));//报错解决办法做check原创 2016-05-27 16:17:04 · 545 阅读 · 0 评论 -
SparkStreaming中Tanformations和状态管理
1.TransFormation操作map(func) 对DStream中的各个元素进行func函数操作,然后返回一个新的DStream. flatMap(func) 与map方法类似,只不过各个输入项可以被输出为零个或多个输出项 filter(func) 过滤出所有函数func返回值为true的DStream元素并返回一个新的DStream reparti原创 2016-05-27 16:16:27 · 227 阅读 · 0 评论 -
SparkStreaming基于Kafka Direct
1.优点:Kafka中的数据相当于streaming的底层文件系统,可以保证kafka中的数据能够处理且只能处理一次。此时不需要开启WAL机制。因为本身就可以保证数据0丢失 数据处理不过来1.限定数据流动速度2.增强机器处理能力3.放到缓存池 2.代码: String brokers = "192.168.10.150:9092"; S原创 2016-05-27 16:15:51 · 528 阅读 · 0 评论 -
SparkStreaming 从Flume Poll数据
1.官网资料http://spark.apache.org/docs/latest/streaming-flume-integration.html2.需要下载相关依赖到flume的lib中3.配置flume的配置文件#agent1表示代理名称agent1.sources=source1agent1.sinks=sink1agent1.channels=channel1原创 2016-05-27 16:12:29 · 801 阅读 · 0 评论 -
Flume推送数据到SparkStreaming
Flume推送数据给streaming其实是配置 把数据推送给端口,streaming直接去读端口。 Flume的安装:1.配置系统环境变量2.配置flume的conf文件,里面有agent,channel,sink3.可以在spark-env中配置java_home和java_opts 关于数据采集flume和kafka选择的理由?数据大规模或者持续产原创 2016-05-27 16:11:22 · 1089 阅读 · 0 评论 -
SparkStreaming数据源Flume
架构: 为什么放进kakfa? Habase,hdfs,hadoop,streaming都可以直接消费。 自定义规则创建分区,放进kafka。 Kafka的数据处理完毕增加标签,保证数据全被处理。 监控数据工具?Sparkstreaming 360度交互式可视化。Ganlia 数据落地?Mysql:数据量小Redis:数据一般H原创 2016-05-27 16:10:16 · 400 阅读 · 0 评论 -
sparkStreming on HDFS
1.创建sparkConfSparkConf conf=new SparkConf().setAppName("SparkStreamingOnHDFS02") .setMaster("spark://192.168.10.200:7077");//至少要开启2个线程2.创建JavaStreamingContextFactory,需要checkPoint目录和conf两个参原创 2016-05-27 16:09:40 · 390 阅读 · 0 评论 -
sparkStreaming必用的sparkStreamingContext,Dsteam和Receiver
图示: 1.InputDstream -->Transformation Dstream (生成dstream的有向无环图即Dstream的DAG,它会在时间的驱动下转换为rdd的DAG实现job的提交)-->outputStream sparkStreamingContext:整个流式程序的入口。它提供了用于创建[[org.apache.spark.streami原创 2016-05-27 16:08:17 · 993 阅读 · 0 评论 -
SparkStreaming基于Kafka Receiver
1.流程图 2.streaming代码 SparkConf conf = new SparkConf().setMaster("local[4]").setAppName("SparkStreamingOnKafkaRecevier"); JavaStreamingContext jsc = new JavaStreamingContext(conf, Durations.原创 2016-05-27 16:20:25 · 223 阅读 · 0 评论