![](https://img-blog.csdnimg.cn/20201014180756780.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
机器学习与数据挖掘
文章平均质量分 56
记录liao wenzhe机器学习与数据挖掘技术的沉淀
Liao_Wenzhe
笔者组建了个风控/aiops的技术交流群,欢迎朋友们与我联系加入。
展开
-
大规模AIOPS在核心网数据中心的探索与实践-工程架构
大规模AIOPS在核心网数据中心的探索与实践-工程架构原创 2022-11-13 13:15:23 · 217 阅读 · 0 评论 -
isc2022主题演讲:AI驱动API安全风险检测与运营
AI原创 2022-08-31 23:19:44 · 373 阅读 · 0 评论 -
大规模Aiops系统在核心网数据中心的探索与实践-算法架构
目录1.背景:2. KPI分类:3. 分类异常检测 4. 关联分析与告警收敛5. 根因分析1.背景:异常检测需要监控的指标繁多(50万左右),覆盖了机器性能,业务用户数,率等众多指标检测。而利用最少的人为参与同时及时准确发现这些指标数据的异常波动,是业务稳定性的重要保证。 但是这些数据不但数量众多,而且不同业务的曲线也有截然不同的特征:2. KPI分类:由于KPI数量众多,且形状各异,故先对海量KPI数据进行分类,包括离线和在线2个模块: ...原创 2022-02-13 18:38:11 · 743 阅读 · 0 评论 -
孤立森林异常分数公式剖析
孤立森林异常分数公式剖析原创 2022-11-18 22:18:57 · 352 阅读 · 1 评论 -
python - 统计学实战
python - 二项分布,柏松分布和正太分布实战原创 2022-09-26 15:25:16 · 621 阅读 · 0 评论 -
Hadoop&&Spark
大数据原创 2022-08-31 23:34:38 · 572 阅读 · 0 评论 -
利用scikit-network 进行 page/node Ranking
scikit-network介绍:scikit-network - 知乎pageRank/nodeRank介绍:图上的node ranking问题 - 知乎[论文阅读] PageRank Algorithm - 知乎from sknetwork.ranking import PageRankfrom sknetwork.data import houseimport pandas as pd import numpy as np from sknetwork.ranking原创 2022-04-16 16:33:13 · 1320 阅读 · 0 评论 -
利用python-sknetwork进行图聚类/社区发现
社区发现是基于图结构的非常经典的聚类算法,与传统聚类算法:kmeans/dbscan等不同,前者能将离散数据进行团伙聚类,从而解决传统聚类方式基于连续值距离度量的缺点。社区发现综述:马东什么:社区发现算法综述120 赞同 · 13 评论文章代码如下:from IPython.display import SVGimport numpy as npfrom scipy import sparseimport pandas as pdfrom sknetwork.utils imp原创 2022-03-30 22:50:05 · 1629 阅读 · 0 评论 -
机器学习中离散特征的聚类方法
有时候我们要对离散特征进行相似聚类,数据样例如下:可以看到有很多非连续的特征,没法直接利用聚类的距离度量,因此这种状况计算类别有几种方式:1. 图聚类,就是将特征转化为图中的一个点,然后跑图算法。2. 先用文本距离算法(例如jaccard)计算好相似矩阵,再利用sklearn dbscana的precomputd参数,先计算好相似矩阵,再进行聚类。例如:import numpy as npfrom scipy.spatial.distance import pdist.原创 2022-03-30 22:36:54 · 4835 阅读 · 1 评论 -
隐私计算-联邦学习,多方安全计算,可信计算的区别与联系
联邦学习,多方安全计算,可信计算作为隐私计算三类技术是有各自的特点和差别,核心思想不同,应用侧重方向、数据流动方式、硬件要求等方面有差异,各有自行的演进路径。1、联邦学习(软件级):核心思想:面向模型,"数据不动、模型动",原始数据在本地模型训练,只交互模型的中间计算结果。应用方向:侧重于多方数据的分布式机器学习模型训练和推理。数据流动:不交换原始数据密码技术:密分享、同态加密、差分隐私等硬件要求:通用硬件2、多方安全计算(软件级):核心思想:面向数据,信任密码学,构建一系列原创 2022-03-06 13:01:21 · 7624 阅读 · 0 评论 -
一文读懂各种分布式机器学习框架的区别与联系
创作不易,欢迎关注,点赞,收藏!本文主要对比各种常见的分布式机器学习框架原理,包括数据分布式,参数服务器,Ring-Allreduce 架构和数据流图。1.数据分布式机器学习(例如spark-mllib):Spark 是使用 scala 实现的基于内存计算的大数据开源集群计算环境.提供了 java,scala, python,R 等语言的调用接口.Spark 的主要特点还包括:- (1)提供 Cache 机制来支持需要反复迭代计算或者多次数据共享,减少数据读取的 IO 开销;-原创 2022-02-28 23:13:42 · 3193 阅读 · 0 评论 -
一文读懂常用机器学习解释性算法:特征权重,feature_importance, lime,shap
目录1.线性回归中的特征权重β:2. 树模型中的feature_importance:3. lime:4. shap:5. 各种算法对比:1.线性回归中的特征权重β:线性模型中,特征可以归类为:数值特征(比如气温)、二进制特征(性别0/1)、范畴特征(天气:下雨、阴天、晴天,使用one-hot编码,让具体类别有自己的二进制选项)2. 树模型中的feature_importance:无论是经典的决策树算法,还是基于决策树算法的boost算法(xgboost)还是ba原创 2022-02-28 17:57:55 · 4751 阅读 · 2 评论 -
降维与二分类器准确度互斥
最近笔者和小伙伴一起排查一个二分类的模型性能下降问题,主要表现为: tsne降维可视化(或者pca降维),可以非常清晰的看到有分类边界,但是利用gbdt进行训练二分类查准查全只有70%多。 gbdt进行训练二分类查准查全有98%,但是tsne降维可视化(或者pca降维),不能看到有分类边界。 tsne可视化也就是说gbdt的结果与tsne的变成了...原创 2022-02-25 15:26:29 · 699 阅读 · 0 评论 -
时间序列异常检测几篇论文解读
1.COPOD: Copula-Based Outlier Detection该论文利用ecdf+copula统计给出了一种新的多维组合的异常检测方法,详见知乎:https://zhuanlan.zhihu.com/p/3381892992.Revisiting Time Series Outlier Detection: Definitions and Benchmarks本文重新将时间序列中的异常进行了分类,基于不同的类别进行了不同时间序列异常检测算法的基准测试。3...原创 2021-08-19 10:38:38 · 1419 阅读 · 0 评论 -
时间序列分类几种方法解读
1. 背景时序数据的监控在安全风险发现过程中扮演着不可忽视的角色,我们可以通过自定义一些KPI(关键风险指标),刻画这些KPI的时间序列基线,通过时间基线进行安全风险的异常检测。然而从海量的时序数据指标中可以发现,指标种类繁多、关系复杂(如下图5所示)。在指标本身的特点上,有周期性、规律突刺、整体抬升和下降、低峰期等特点,在影响因素上,有节假日、临时活动、天气、疫情等因素。想要覆盖上述种种场景 ,并且精准的进行安全风险的发现十分困难。若在海量指标监控上,能根据指标自动适配合适的策略,不需要人为参原创 2021-08-18 15:33:59 · 4065 阅读 · 0 评论 -
异常检测及其分布集成
异常检测算法种类繁多,包括聚类,树,统计分布,机器学习,深度学习等多种形式,下面对一些常见问题进行了自己的总结:1.如何选型?主要看算法原理和数据分布:如下图所示,第一二张图的异常点容易成一个团,形成局部离群点,而图三则是全局离群点,不同的离群方式应当采用不同的算法,比如图1,2用聚类,图3用孤立森林。一个非常好用的异常检测工具包:https://github.com/yzhao062/pyod2.算法集成。算法种类多,有时候单一算法并不能满足要求,需要对多算法做测试甚至进行集成,以原创 2021-08-16 15:09:39 · 403 阅读 · 0 评论 -
分布式机器学习总结
目前主流的分布式架构包括:1.基于mapreduce模型的spark-mllib,采用数据分布式+同步的模式,缺点是对异步和模型分布式不支持,但是社区完善。2.基于参数服务器的Multiverso,既可实现数据分布式,也可实现模型分布式,同时支持异步和同步,也可实现大规模的参数更新。3.基于数据流图的tensorflow,可以和1,2结合组成复杂的分布式机器学习网络。4.3种模式的区别:5.各种框架对比图, angel是腾讯开源的参数服务器框架,spark是mapredu原创 2021-08-02 22:07:46 · 963 阅读 · 0 评论 -
如何降低xgboost和随机森岭的过拟合和欠拟合
数据角度:增加数据有利于降低过拟合和欠拟合。模型角度:让模型复杂度降低有利于降低过拟合,增加模型复杂度有利于降低欠拟合。对应xgboost模型复杂度降低就是让每棵树小点,树的数量少点,增大惩罚系数,early stopping。复杂度提高相反。对应随机森岭模型复杂度降低就是让每棵树小点,但是树的数量多点。复杂度提高相反。抽样角度:让每棵树的抽样样本减少,有利于减少过拟合。让每棵树的抽样样本增加,有利于减少欠拟合。让每棵树的抽样特征减少,有利于减少过拟合。让每棵树的抽样原创 2021-08-15 14:34:34 · 1074 阅读 · 0 评论 -
大数据算法基础总结-lwz更新
基础概念:方差和偏差 解释方差:在训练集上表现很好,测试集上表现很差 解释偏差:在训练集上表现就不好 模型训练为什么要引入偏差和方差?请理论论证:VCBANGD 什么情况下引发高方差:训练数据比较少,模型太复杂, 某些特征引起过拟合。 如何解决高方差问题: 添加训练数据,正则化等一些手段让模型简单,随机森林,减少 引起过拟合的某些特征,dopout。 以上方法是否一定有效:不一定,大部分有效。 如何解决高偏差问题:添加数据,降低正则化水平,使用复杂模型,添加有效特征。 以上原创 2021-08-15 10:32:07 · 309 阅读 · 0 评论 -
谈谈log,标准化,归一化与box-cox转换之间的联系与区别
log化:可以对向左偏态,不满足正太分布的特征正态化。z-score标准化:用的比较多,是最常用的标准化之一,从公式看其不太容易受异常值影响。max-min最大最小归一化:最大特点是能把数据规整到0-1之间,但是最大最小值容易受到异常值影响。box-cox转换,如下图(左上角的图就是log化),利用极大似然估计特征的偏态情况,并利用公式对其转换成近似的正太分布。如果左偏就用左上角的log进行转换,如果右偏态就用右下角的图示进行正太转换。那为什么要将特征和标签正太化呢?可以拿简单的线性回归举例原创 2021-08-10 22:06:34 · 4207 阅读 · 0 评论 -
浅谈特征共线性问题
特征共线性是指两个特征a和b具有非常大的关联,比如x = 2 * y。这会对数据建模造成一些问题。从算法角度:对于线性模型:会对特征重要性的解释性造成问题。对于树模型:集成学习算法效果好的一个非常重要的问题是和而不同,如果出现大量的特征共线性问题会造成很很多棵树一致,导致准确度下降。从数据的角度:特征过多,会造成更大可能的异常数据代入的可能性,造成准确度降低。...原创 2021-08-02 22:44:36 · 533 阅读 · 0 评论