- 博客(5)
- 资源 (4)
- 收藏
- 关注
原创 Spark Streaming Join with Watermark
我们常常会有这样的应用场景,就是一个复杂系统可能是由多个模块组成,然后每个模块都会有自己的logging系统。最后我们在处理日志数据的时候,会希望能够把不同模块的日志数据join在一起。一个简单的例子就是,广告有显示的日志,然后当用户点击了广告后又会有点击的日志,那么如果我想把广告信息和点击信息组合在一起就需要从这两个日志流源得到的数据进行join。这在API文档里面有相应的介绍Stream-St...
2018-06-26 15:43:49 1163 1
原创 Azure Databricks上同时加载多个eventhub streaming源
这里面又是一个简单的模拟,通过创建两个event hubs。然后模拟同时给这两个event hub发流数据。using System;using System.Collections.Generic;using System.Linq;using System.Text;using System.Threading.Tasks;using Microsoft.ServiceBus;us...
2018-06-21 11:02:42 581
原创 Spark Streaming中withWatermark的简单尝试
我们在处理流数据的时候,往往会有实时性要求。可是如果我们直接按照程序所在服务器的当前时间计算又不行,比如当上游日志数据延迟了,则所有的这部分数据都会被抛弃掉。所以一般我们在记录日志的时候,加上日志的时间戳。这样我们在进行流处理的时候,就可以把日志记录的时间拿出来,根据这个时间来决定流处理是不是要往下进行。而往往我们会以最早到达的日志作为时间参考点,如果下一个日志比这个时间点晚的太多,就可以抛弃掉。...
2018-06-19 16:01:29 6041
原创 Azure中databricks和eventhub的集成
Event Hub: https://docs.microsoft.com/en-us/azure/event-hubs/event-hubs-what-is-event-hubsEvent Hub和Databricks集成:https://docs.azuredatabricks.net/spark/latest/structured-streaming/streaming-event-hubs...
2018-06-19 10:45:31 1280
原创 Azure中Databricks上运行spark streaming job
我们需要先用Maven创建一个scala的工程,具体步骤可以参考然后用IntelliJ IDEA打开这个Maven Project。其中在根目录下游一个pom.xml文件,针对我们项目的需求需要加上相应的dependency包。比较我们要建一个spark streaming的project,所以我们必须要加spark相应的包。其中需要注意的是scope的功能。根据我的实验,如果这个参数值为prov...
2018-06-15 13:45:14 897
POJ上三百多道题目程序源码
2010-11-23
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人