自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(5)
  • 资源 (4)
  • 收藏
  • 关注

原创 Spark Streaming Join with Watermark

我们常常会有这样的应用场景,就是一个复杂系统可能是由多个模块组成,然后每个模块都会有自己的logging系统。最后我们在处理日志数据的时候,会希望能够把不同模块的日志数据join在一起。一个简单的例子就是,广告有显示的日志,然后当用户点击了广告后又会有点击的日志,那么如果我想把广告信息和点击信息组合在一起就需要从这两个日志流源得到的数据进行join。这在API文档里面有相应的介绍Stream-St...

2018-06-26 15:43:49 1163 1

原创 Azure Databricks上同时加载多个eventhub streaming源

这里面又是一个简单的模拟,通过创建两个event hubs。然后模拟同时给这两个event hub发流数据。using System;using System.Collections.Generic;using System.Linq;using System.Text;using System.Threading.Tasks;using Microsoft.ServiceBus;us...

2018-06-21 11:02:42 581

原创 Spark Streaming中withWatermark的简单尝试

我们在处理流数据的时候,往往会有实时性要求。可是如果我们直接按照程序所在服务器的当前时间计算又不行,比如当上游日志数据延迟了,则所有的这部分数据都会被抛弃掉。所以一般我们在记录日志的时候,加上日志的时间戳。这样我们在进行流处理的时候,就可以把日志记录的时间拿出来,根据这个时间来决定流处理是不是要往下进行。而往往我们会以最早到达的日志作为时间参考点,如果下一个日志比这个时间点晚的太多,就可以抛弃掉。...

2018-06-19 16:01:29 6041

原创 Azure中databricks和eventhub的集成

Event Hub: https://docs.microsoft.com/en-us/azure/event-hubs/event-hubs-what-is-event-hubsEvent Hub和Databricks集成:https://docs.azuredatabricks.net/spark/latest/structured-streaming/streaming-event-hubs...

2018-06-19 10:45:31 1280

原创 Azure中Databricks上运行spark streaming job

我们需要先用Maven创建一个scala的工程,具体步骤可以参考然后用IntelliJ IDEA打开这个Maven Project。其中在根目录下游一个pom.xml文件,针对我们项目的需求需要加上相应的dependency包。比较我们要建一个spark streaming的project,所以我们必须要加spark相应的包。其中需要注意的是scope的功能。根据我的实验,如果这个参数值为prov...

2018-06-15 13:45:14 897

Kmeans算法C++实现

Kmeans算法的C++实现,输入的instance的数据结构有设计为静态数组存储和动态链表存储

2010-11-23

POJ上三百多道题目程序源码

具体题目参考: http://poj.org/userstatus?user_id=tanzhangwen 本压缩文件里面有所有已经Accepted的题目的源码,主要语言为c/c++,少量java

2010-11-23

Think in Python

介绍Python语言以及怎么用Python语言来思考及编程,是英文版的好书

2010-03-14

C及C++基本函数说明

有C语言以及C++语言中系统函数的介绍、使用说明。另外还有STL中的队列、堆栈等的介绍,欢迎下载

2009-09-26

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除