Hadoop
文章平均质量分 83
tzw_cs
这个作者很懒,什么都没留下…
展开
-
时间系列预测评估
时间系列预测(time series prediction)问题简单来说,就是给定基于时间系列的历史数据,我们去预测未来时间系列的值。这个一个很典型的问题,并且在很多的应用中都会使用到。比如我们生产销售一种产品,我们知道过去一段时间每天的实际销量,然后我们想预测未来一个月一个季度一年的销售量从而为生产或者备货做指导。这个链接有更详细地介绍这个问题以及预测的方法。那么在这么多种预测方法中,哪种更我们我们的场景呢?我们需要一种方式来评估预测的好坏。Darts工具中也提供了很多评估的函数。这里我们介绍一些常用的评原创 2022-06-16 16:55:46 · 722 阅读 · 1 评论 -
Databricks Delta资料及使用TIPS
Reference: Creating Delta Lake Tables in Azure DatabricksDelta lake is an open-source data format that provides ACID transactions, data reliability, query performance, data caching and indexing, and many other benefits. Delta lake can be thought of as an原创 2022-05-26 17:53:33 · 659 阅读 · 0 评论 -
Databricks中PySpark的一些常用操作
关于PySpark API的详细可以参考:pyspark.sql.DataFrame.createOrReplaceTempView — PySpark 3.2.1 documentation下面用在Databricks Notebook中的一些操作场景及实现作为例子:1. Join多个stream并Partition输出# event.request is delta table# string to timestamp: to_timestamp()# array size: siz.原创 2022-03-25 11:26:14 · 759 阅读 · 0 评论 -
PySpark中加载schema的几种方式
现在组里接的项目主要是在Azure Databricks里面用PySpark写脚本处理数据。而它目前的代码单元测试这一块是完全崩了,其中有几个已经写了的测试例子也无法运行,原因是它会加载avro的schema文件作为目标schema的转化和验证。但是因为处理逻辑的变更已经增加了一些列,可以avro文件并没有一直更新,使得测试无法成功。可是直接编辑avro文件尝试了很多软件或者在线编辑都无法成功,于是就思考替换这里的schema的加载方式。下面根据网络查阅及整理,找到的几种加载schema的方式如下:原创 2022-03-21 15:52:39 · 2904 阅读 · 0 评论 -
Spark Streaming Join with Watermark
我们常常会有这样的应用场景,就是一个复杂系统可能是由多个模块组成,然后每个模块都会有自己的logging系统。最后我们在处理日志数据的时候,会希望能够把不同模块的日志数据join在一起。一个简单的例子就是,广告有显示的日志,然后当用户点击了广告后又会有点击的日志,那么如果我想把广告信息和点击信息组合在一起就需要从这两个日志流源得到的数据进行join。这在API文档里面有相应的介绍Stream-St...原创 2018-06-26 15:43:49 · 1165 阅读 · 1 评论 -
Spark Streaming中withWatermark的简单尝试
我们在处理流数据的时候,往往会有实时性要求。可是如果我们直接按照程序所在服务器的当前时间计算又不行,比如当上游日志数据延迟了,则所有的这部分数据都会被抛弃掉。所以一般我们在记录日志的时候,加上日志的时间戳。这样我们在进行流处理的时候,就可以把日志记录的时间拿出来,根据这个时间来决定流处理是不是要往下进行。而往往我们会以最早到达的日志作为时间参考点,如果下一个日志比这个时间点晚的太多,就可以抛弃掉。...原创 2018-06-19 16:01:29 · 6050 阅读 · 0 评论 -
Azure中databricks和eventhub的集成
Event Hub: https://docs.microsoft.com/en-us/azure/event-hubs/event-hubs-what-is-event-hubsEvent Hub和Databricks集成:https://docs.azuredatabricks.net/spark/latest/structured-streaming/streaming-event-hubs...原创 2018-06-19 10:45:31 · 1292 阅读 · 0 评论 -
Azure中Databricks上运行spark streaming job
我们需要先用Maven创建一个scala的工程,具体步骤可以参考然后用IntelliJ IDEA打开这个Maven Project。其中在根目录下游一个pom.xml文件,针对我们项目的需求需要加上相应的dependency包。比较我们要建一个spark streaming的project,所以我们必须要加spark相应的包。其中需要注意的是scope的功能。根据我的实验,如果这个参数值为prov...原创 2018-06-15 13:45:14 · 904 阅读 · 0 评论 -
Azure Databricks上同时加载多个eventhub streaming源
这里面又是一个简单的模拟,通过创建两个event hubs。然后模拟同时给这两个event hub发流数据。using System;using System.Collections.Generic;using System.Linq;using System.Text;using System.Threading.Tasks;using Microsoft.ServiceBus;us...原创 2018-06-21 11:02:42 · 585 阅读 · 0 评论 -
利用CURL命令调用WebHDFS REST API与Kerberos机制
1. CURL安装cURL是一个利用URL语法在命令行下工作的文件传输工具,1997年首次发行。它支持文件上传和下载,所以是综合传输工具,但按传统,习惯称cURL为下载工具。cURL还包含了用于程序开发的libcurl。CURL官方网站:http://curl.haxx.se/1.1 Linux安装这个网上资料比较多,只要搜索“curl 安装 linux”就应该有不少介绍。1.原创 2014-09-26 14:44:11 · 8935 阅读 · 0 评论