自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(10)
  • 收藏
  • 关注

原创 异常检测之集成方法

一、前言背景:在现实异常检测业务场景中,数据集是多维度(通常是成百上千)的,随着维度的增加,数据空间的大小(体积)会以指数级别增长,使数据变得稀疏,这便是维度诅咒的难题(高维空间分析和组织数据时出现的一些在地维空间可能不会出现的现象)。维度诅咒难点:维度诅咒对距离的计算,聚类都带来了难题。例如基于邻近度的方法是在所有维度使用距离函数来定义局部性,但是,在高维空间中,所有点对的距离几乎都是相等的(距离集中),这使得一些基于距离的方法失效。解决办法:子空间方法集成方法是子空间方法的一种,其优势是:

2021-01-24 20:55:58 823

原创 异常检测之基于相似度方法

一、概述基于相似度判断异常也是异常检测中常用方法,其主要思想是异常点和正常点之间存在不同。又可主要细分为:- 基于距离度量相似度来判断基于距离的异常检测有这样一个前提假设,即异常点的近邻距离要远大于正常点。a.基于索引的算法b.嵌套循环算法c.基于单元的方法- 基于密度度量相似度来判断基于密度的算法主要有局部离群因子(LocalOutlierFactor,LOF),以及LOCI、CLOF等基于LOF的改进算法。二、实现(基于LOF算法进行异常检测)...

2021-01-21 21:49:47 750

原创 异常检测之线性方法

感谢datawhale大部队!一 引言 在异常检测中,线性方法也是常用的实现方法之一。 真实数据集中不同维度的数据通常具有高度的相关性,这是因为不同的属性往往是由相同的基础过程以密切相关的方式产生的。在古典统计学中,这被称为——回归建模,一种参数化的相关性分析。一类相关性分析试图通过其他变量预测单独的属性值,另一类方法用一些潜在变量来代表整个数据。前者的代表是线性回归,后者一个典型的例子是主成分分析(PCA)。需要明确的是,这里有两个重要的假设:  假设一:近...

2021-01-18 21:43:20 717

原创 异常检测之HBOS统计学方法(基于pyod实现示例)

感谢datawhale大部队!异常检测中,统计学方法的优缺点优点:1、如果统计假定成立,这种方法会非常有效 ;2、统计方法的置信区间可以作为额外的信息帮助决策缺点:这类方法严重依赖数据集的分布假定**HBOS(Histogram-based Outlier Score)**是一种原理简单,且通常很有效的无监督算法。一、环境准备pyod库安装:# 直接命令行pip安装pip install pyod启动jupyter notebook:# 以前已安装jupyter,命令行直接启动即

2021-01-16 00:53:25 1952

原创 浅谈异常检测

一、定义在数据挖掘中,异常检测(英语:anomaly detection)对不匹配预期模式或数据集中其他项目的项目、事件或观测值的识别。通常异常项目会转变成银行欺诈、结构缺陷、医疗问题、文本错误等类型的问题。异常也被称为离群值、新奇、噪声、偏差和例外。二、异常类别点异常 上下文异常 群体异常三、常见业务场景业务监控告警(检测异常对任何业务来说都很重要),譬如日新增/活跃/留存用户量的异常监控告警。四、常用方法传统统计学知识 机器学习一般情况下,可以把异常检...

2021-01-13 00:53:03 488

原创 python 交叉分析应用

工作中常常做各种交叉变动分析,需要快速出结论,如果没有现成的BI平台支持,还有以下方法可以实现:1)excel(适用于小数据量级分析)2)sql(适用于数据量较大的简单分析)3)python(依托于丰富的第三方开源库,可以根据业务需求,较为灵活地处理业务数据,进行分析、可视化呈现。)举个简单栗子:假设某客户某段时间内购买规模下跌较大,可以从产品类型、新购/退还/组件变配去交叉分析,尽可能从数据特征上追溯出客户行为特征,结合其它客户业务背景,总结出导致规模下跌的主要原因以及应对策略。简单的变动分析

2020-08-31 00:33:14 898

原创 基于sklearn实现简单LR分类模型

基于sklearn实现简单LR分类模型逻辑回归(Logistic regression,简称LR)分类原理(占位后补)模型训练流程基于sklearn简单实现1)导入相关模块: import numpy as np from sklearn.linear_model import LogisticRegression2)准备训练集:x_fearures = np.array([[-1, -2], [-2, -1], [-3, -2], [1, 3], [2, 1], [3, 2]])

2020-08-20 14:45:41 1785

原创 pip whl本地安装

whl本地安装方式:到https://pypi.org/搜索下载压缩包,即whl文件cd 切换路径到pip包所在路径,一般在xxxxxx\Python37\Scripts目录下。安装执行:pip install +whl文件路径如果timeout报错的话,可能是因为下载速度太慢,加个镜像再试下:pip install+whl文件路径+ -i http://pypi.douban.com/simple --trusted-host pypi.douban.com(也可以换其它国内镜像

2020-08-20 10:54:24 5318

原创 python-jupyter输出显示不全问题解决

解决jupyter输出显示不全的问题:from IPython.core.interactiveshell import InteractiveShellInteractiveShell.ast_node_interactivity = "all"

2020-08-20 09:21:37 3419 3

原创 MYSQL 操作

SQL定义:用于访问和处理数据库的标准计算机语言结构化查询语言 访问和处理数据库 基于ANSI编码的计算机语言RDBMS定义:关系型数据库管理系统,例MySQLSQL DML 和 DDL可以把 SQL 分为两个部分:数据操作语言 (DML) 和 数据定义语言 (DDL)。SQL (结构化查询语言)是用于执行查询的语法。但是 SQL 语言也包含用于更新、插入和删除记录...

2019-08-04 16:48:05 93

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除