BigQuery ML功能上新:时间序列和非时间序列数据的无监督异常检测

图片

在涉及到异常检测时,很多时候面临的主要挑战是很难对异常进行定义,举个栗子,我们该如何定义和预测异常网络入侵、系统缺陷和安全欺诈呢?如果已经标记了已知的异常数据,那么我们可以从 BigQuery ML 中已支持的各种受监督的机器学习模型(详情见下方链接)类型中进行选择。但是,如果我们不知道会发生异常,并且没有标记数据,我们可以做什么呢?与利用监督学习的典型预测技术不同,这个时候我们可能需要能够在没有标记数据的情况下检测异常。

机器学习模型https://cloud.google.com/bigquery-ml/docs/reference/standard-sql/bigqueryml-syntax-create#create_model_syntax

七月初,Google 对外宣布在 BigQuery ML 中公开预览新的异常检测功能,该功能利用无人监督的机器学习来帮助检测异常,而无需标记数据。根据训练数据是否为时间序列,用户现在可以使用新的 ML.DETECT_ANOMALIES 函数使用以下模型检测训练数据或新输入数据中的异常:

  • Autoencoder 模型,正在内测;

  • K- means 模型,已对外开放;

  • ARIMA_PLUS 时间系列模型,已对外开放。

如何使用 ML.DETECT_ANOMALIES 模型进行异常检测?

要检测非时间系列数据中的异常,我们可以使用:

K-means 聚类模型:当使用 K-means 模型时,根据每个输入数据点与其最近集群的规范化距离值来识别异常。如果该距离超过用户提供的污染值确定的阈值,则数据点被识别为异常。

Autoencoder 模型:当使用Autoencoder 模型时,会根据每个数据点的重建错误来识别异常。如果错误超过由污染值确定的阈值,则将其识别为异常。

要检测时间系列数据中的异常,可以使用:

ARIMA_PLUS 时间系列模型:在使用 ARIMA_PLUS 模型时,会根据该时间戳的置信区间识别异常。如果时间戳中的数据点发生在预测区间之外的概率超过用户提供的概率阈值,则数据点被识别为异常。

下面我们一一展示每个场景的 BigQuery  ML 中异常检测的代码示例。

CREATE MODEL `mydataset.my_kmeans_model`OPTIONS(  MODEL_TYPE = 'kmeans',  NUM_CLUSTERS = 8,  KMEANS_INIT_METHOD = 'kmeans++'  ) ASSELECT  * EXCEPT(Time, Class)FROM  `bigquery-public-data.ml_datasets.ulb_fraud_detection`;

训练 K-means 聚类模型后,运行 ML.DETECT_ANOMALIES 以检测训练数据或新输入数据中的异常。这时需使用 ML.DETECT_ANOMALI

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值