自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(50)
  • 资源 (2)
  • 收藏
  • 关注

原创 在线日志解析方法:Drain,Logram

在线日志解析方法Drain和Logram

2022-06-20 20:19:11 2414 4

原创 seaborn画多条线如何修改颜色?默认的渐近色不清晰

在用seaborn画折线图时,一张图中的多条线颜色十分接近。如下图,根本看不清sns.lineplot有一个参数是palette,意思是“调色板????”。官网:https://seaborn.pydata.org/generated/seaborn.lineplot.html该参数可以为string、list、dict、或者是matplotlib.colors.Colormap举个例子:import pandas as pdimport matplotlib.pyplot as pltim

2021-07-22 17:22:47 9003

翻译 Cramér’s V的公式、例子、SPSS

Cramér’s V – What and Why?https://www.spss-tutorials.com/cramers-v-what-and-why/#ref20Cramér’s V is a number between 0 and 1 that indicates how strongly two categorical variables are associated. Cramér’s V 是一个介于 0 和 1 之间的数字,表示两个分类变量的关联程度。If we’d like to

2021-06-28 16:24:07 8823 2

原创 面经 阿里云算法工程师实习生(已拿offer)

先说一下本人的情况:本211硕985,有项目,论文在投在牛客网上找的和自己研究方向十分契合的岗位,内推下面列举了被问到的一部分问题,另一部分记不得了20210308:面试指导自我介绍简单问了和项目、个人亮点相关的几个问题20210309:技术一面(同事面)自我介绍介绍项目一你们的这一作品目前还在继续使用吗?介绍项目二这个项目的应用场景是什么?Pytorch和tensorflow两个框架的区别(同事做不是算法相关的,问的问题更多有关项目)20210310:技术二面(leader面)

2021-04-17 21:02:11 1463 5

原创 intra-class与inter-class的区别

“inter” means “between” or “among”.“intra” means “within”.从international(国际的)和intranational(国内的)的角度来思考。第一个是“跨多个国家”,第二个是“在一个国家内”。 在涉及尝试将样本分配给类别的许多问题中,目标是最大化类别间的差异,并最小化类别内的差异。也就是说,每个类别中的样本必须尽可能相似,而不同类别中的样本必须尽可能不同。参考:https://www.quora.com/Whats-the-differe

2021-04-17 11:40:06 5709

原创 面试相关 交叉验证

面试被问到交叉验证,今天花了点时间整理了一下交叉验证相关的知识交叉验证:N折交叉验证有两个用途:模型评估(周志华《机器学习》p24)和模型选择。模型评估可以看成是模型选择过程中的一个步骤:先对候选的每个模型进行评估,再选出评估表现最好的模型作为最终模型。把这种策略用于划分训练集和测试集,就可以进行模型评估;把这种策略用于划分训练集和验证集,就可以进行模型选择。交叉验证的核心思想:对数据集进行多次划分,对多次评估的结果取平均,从而消除单次划分时数据划分得不平衡而造成的不良影响。因为这种不良影响在小规模数

2021-03-31 16:03:47 1051 4

原创 面试相关 生成模型与判别模型的定义和优缺点

生成模型和判别模型**生成模型:**由数据学习联合概率分布 P(X,Y)P(X,Y)P(X,Y),然后利用贝叶斯定理 P(Y∣X)=P(X,Y)/P(X)P(Y|X)=P(X,Y)/P(X)P(Y∣X)=P(X,Y)/P(X),求出条件概率分布 P(Y∣X)P(Y|X)P(Y∣X) 作为预测的模型。基本思想是首先建立样本的联合概率密度模型 P(X,Y)P(X,Y)P(X,Y),然后再得到后验概率 P(Y∣X)P(Y|X)P(Y∣X),再利用它进行分类。这个过程中还得先求出 P(X)P(X)P(X),P(X

2021-03-28 14:44:17 847 2

原创 TCP的拥塞控制方法

最近找实习发现面试官们很喜欢问这个问题,印象中本科大二时的计算机网络那本书写得很详细,找来看了看便有了如下的梳理:TCP进行拥塞控制的算法有四种:慢开始、拥塞避免、快重传和快恢复。1.慢开始和拥塞避免发送方维持一个叫做拥塞窗口cwnd(congestion window)的状态变量。拥塞窗口的大小取决于网络的拥塞程度,并且动态地在变化。发送方让自己的发送窗口等于拥塞窗口。慢开始:当主机开始发送数据时,由于并不清楚网络的负荷情况,所以如果立刻把大量数据字节注入到网络,就可能引起网络发生拥塞。先探测一下

2021-03-25 10:58:57 2118

原创 python实现“时间转时间戳”

import timefrom datetime import datetimedef time2stamp(timestr): #转时间戳函数 datetime_obj=datetime.strptime(timestr[0:19],'%Y/%m/%d %H:%M:%S') obj_stamp=int(datetime.timestamp(datetime_obj)) return obj_stamp#之前是循环遍历转换,效率太低。通过使用函数,瞬间完成!!your_d

2021-03-02 15:57:54 589

原创 LeetCode:26. 删除排序数组中的重复项(python)(第一思路没想到用快慢指针)

解题思路几乎所有的题解都是快慢指针的做法,但看到题目我的第一思路就是:若当第i项和第i+1项相等,则remove第i+1项。但一直报错,,,才发现用for循环无法改变l的值,于是有了下面的while代码,思路见注释。代码class Solution(object): def removeDuplicates(self,nums): """ :type nums: List[int] :rtype: int """

2021-03-02 15:45:58 123

原创 基于GAN框架的时间序列异常检测研究综述

一项综述类的课程作业Anomaly detection with generative adversarial networks for multivariate time series.MAD-GAN: Multivariate anomaly detection for time series data with generative adversarial networks.TAnoGAN: Time Series Anomaly Detection with Generative Advers

2021-01-26 11:19:27 8776 3

原创 pytorch中的torch.squeeze()函数

torch.squeeze(input, dim=None, out=None) squeeze()函数的功能是维度压缩。返回一个tensor(张量),其中 input 中大小为1的所有维都已删除。举个例子:如果 input 的形状为 (A×1×B×C×1×D),那么返回的tensor的形状则为 (A×B×C×D)当给定 dim 时,那么只在给定的维度(dimension)上进行压缩操作。举个例子:如果 input 的形状为 (A×1×B),squeeze(input, 0)后,返回的tensor

2020-08-03 16:46:12 49052 2

原创 numpy中的transpose()函数

transpose()函数:二维数组,类似于求矩阵的转置:import numpy as npx=np.arange(4).reshape((2,2)) #生成一个2*2的数组print('x:')print(x)y=np.transpose(x)print('y:')print(y)输出:可以看到,二维数组的行列索引值互换,如:数字“1”的索引由(0,1)变为(1,0)。三维数组:import numpy as npx=np.arange(12).reshape((2,2,

2020-08-03 08:53:04 1904

翻译 2019 Cross-dataset Time Series Anomaly Detection for Cloud Systems云系统的跨数据集时间序列异常检测

最近看了一篇有关“云系统的跨数据集时间序列异常检测”的文章,文章发表在系统领域顶级会议 USENIX ATC 2019 上。文章提出了基于迁移学习和主动学习的跨数据集异常检测框架,可以有效地在不同时间序列数据集之间进行迁移,只需要1%-5% 的标注样本量即可达到高精度检测。原文链接:https://www.usenix.org/system/files/atc19-zhang-xu.pdfCross-dataset Time Series Anomaly Detection for Cloud Syste

2020-07-25 16:48:03 1420

原创 Project SAAAD: Scalable Adaptive Auto-encoded Anomaly Detection

Project SAAAD:Scalable Adaptive Auto-encoded Anomaly Detection 可扩展的自适应自动编码异常检测Project SAAAD aims to explore the use of autoencoders for anomaly detection in various ‘big-data’ problems. Specifically, these problems have the following complexities:SAAAD项目

2020-06-17 08:57:19 351

原创 get_fscore的参数fmap

在实现XGBoost是,参考网上的代码,发现很多朋友使用get_fscore这个函数获取每个特征的feature score时,用了fmap这一参数。这个参数到底是什么意思呢?官方文档如下:https://xgboost.readthedocs.io/en/latest/python/python_api.html所以,到底是什么意思呢?举个例子:如果我的特征的名字就是从1开始的自然数。在没有该参数的时候,输出是这样的:那么如果加上该参数,而文件为空,那么输出会变成:其实就是一个特征名字的映射

2020-06-13 15:32:07 2537

原创 df.fillna()函数,参数method取值ffill

官方文档:https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.fillna.html?highlight=fillna#pandas.DataFrame.fillnamethod:插值方式,默认为’ffill’,向前填充,或是向下填充而‘bfill’:向后填充,或是向上填充举个栗子:...

2020-06-09 17:24:50 12747 6

原创 dropna(thresh=n) 的用法

thresh这个参数是保留下来的每一行,其非NA的数目>=n。下面举一个例子:

2020-06-09 16:55:02 4624

原创 吴恩达 1.10 梯度消失与梯度爆炸

训练神经网络 尤其是深度神经网络所面临的一个问题是梯度消失或梯度爆炸也就是说 当你训练深度网络时 导数或坡度有时会变得非常大 或非常小 甚至以指数方式变小 这加大了训练的难度这节课 你将会了解梯度消失或爆炸问题的真正含义 以及如何更明智地选择随机初始化权重 从而避免这个问题假设你正在训练这样一个极深的神经网络:为了节约幻灯片上的空间,我画的神经网络每层只有两个隐藏单元,但它可能含有更多。但这个神经网络会有参数w[1]w^{[1]}w[1],w[2]w^{[2]}w[2],w[3]w^{[3]}w[

2020-06-08 16:24:36 282

原创 解决ImportError: cannot import name toimage

1. from scipy.misc import toimage 改为 from PIL import Image2. toimage 改为 Image.fromarrayfrom keras.datasets import cifar10from matplotlib import pyplot as plt# from scipy.misc import toimagefrom PIL import Imageimport numpy as np# 导入数据(X_train, y_t

2020-06-05 08:14:33 1944

原创 ImportError: Could not find the DLL(s) ‘msvcp140_1.dll’. TensorFlow requires that these DLLs be

报错如下:解决方案:在这里https://support.microsoft.com/zh-cn/help/2977003/the-latest-supported-visual-c-downloads选择对应文件下载安装:安装完成就可以了!之前看到安装过2015(https://www.microsoft.com/en-us/download/details.aspx?id=53587),安装了不行,换了这个2015-2019就立刻好了!...

2020-05-29 21:33:40 4813 7

原创 阅读笔记(2019)Deep Learning for Anomaly Detection: A Survey

原文:https://www.researchgate.net/publication/330357393_Deep_Learning_for_Anomaly_Detection_A_Survey论文首先对基于深度学习的异常检测的研究方法进行了系统全面的概述。此外,还回顾了这些方法在不同应用领域中的应用,并评估了它们的有效性。根据基本的假设和采用的方法,将最先进的深度异常检测研究技术分为不同的类别。在每个类别中,作者概述了基本的异常检测技术及其变体,并提出了区分正常和异常行为的关键假设。对于每个类别,

2020-05-28 14:17:59 4335

翻译 (ch11~13) Deep Learning for Anomaly Detection: A Survey

Deep Learning for Anomaly Detection: A Surveyhttps://www.researchgate.net/publication/330357393_Deep_Learning_for_Anomaly_Detection_A_Surveych8:https://blog.csdn.net/qq_40305043/article/details/106310729ch9:https://blog.csdn.net/qq_40305043/article/deta

2020-05-28 10:32:40 542

翻译 (ch10) Deep Learning for Anomaly Detection: A Survey

Deep Learning for Anomaly Detection: A Surveyhttps://www.researchgate.net/publication/330357393_Deep_Learning_for_Anomaly_Detection_A_Survey10 Deep Anomaly Detection (DAD) ModelsIn this section, we discuss various DAD models classified based on the avai

2020-05-27 13:55:02 870

翻译 (ch9) Deep Learning for Anomaly Detection: A Survey

9 Applications of Deep Anomaly Detection 深度异常检测的应用9.1 Intrusion Detection9.2 Fraud Detection9.3 Malware Detection9.4 Medical Anomaly Detection9.5 Deep learning for Anomaly detection in Social Networks9.6 Log Anomaly Detection9.7 Internet of things (

2020-05-25 23:27:10 1358

翻译 (ch8) Deep Learning for Anomaly Detection: A Survey

Deep Learning for Anomaly Detection: A Surveyhttps://www.researchgate.net/publication/330357393_Deep_Learning_for_Anomaly_Detection_A_Survey8.3 Based on the training objective 基于训练目标在本研究中,我们介绍了两种新的基于采用的训练目标的深度异常检测(DAD)技术:1)深度混合模型(DHM)。2)一类神经网络(OC-NN)。8

2020-05-24 17:11:07 1068

转载 什么是张量?

张量的通俗理解:https://www.cnblogs.com/abella/p/10142935.html

2020-05-21 14:53:11 225

原创 python中sklearn的pipeline模块

Pipelines and composite estimators(官方文档)转换器通常与分类器,回归器或其他估计器组合在一起,以构建复合估计器。最常用的工具是Pipeline。Pipeline通常与FeatureUnion结合使用,FeatureUnion将转换器的输出连接到一个复合特征空间中。 TransformedTargetRegressor处理转换目标(即对数变换y)。相反,Pipelines仅转换观察到的数据(X)。Pipeline可用于将多个估计器链接为一个。这很有用,因为在处理数据时通

2020-05-19 11:23:04 4115

原创 sklearn相关API

sklearn.model_selection.cross_val_score:https://scikit-learn.org/stable/modules/generated/sklearn.model_selection.cross_val_score.html#sklearn.model_selection.cross_val_scoresklearn.model_selection.GridSearchCV:https://scikit-learn.org/stable/modules/gen.

2020-05-18 20:25:52 196

原创 TensorFlow与Keras的关系

TensorFlow:TensorFlow和CNTK一样,也是Python中一个快速的数值运算类库,有Google开发并开源。同样的,TensorFlow也是深度学习的一个基础类库,可以用于直接创建深度学习的模型,或者使用**TensorFlow的封装(如Keras)**来实现深度学习的模型。CNTK和TensorFlow这两个快速数值计算类库,被广泛应用在深度学习项目的研究与开发当中。这两个类库虽然非常强大,但是在实际应用中直接使用这两个类库是非常困难的。因此,在深度学习的项目中使用Keras(一个

2020-05-17 11:12:53 2362

原创 特征工程(Feature Engineering)VS表示学习(Representation Learning)

特征工程(Feature Engineering)“数据决定了机器学习的上限,而算法只是尽可能逼近这个上限”,这里的数据指的就是经过特征工程得到的数据。特征工程就是一个把原始数据转变成特征的过程,这些特征可以很好的描述这些数据,并且利用它们建立的模型在未知数据上的表现性能可以达到最优(或者接近最佳性能)。从数学的角度来看,特征工程就是去设计输入变量X。在机器学习时代,如果需要对Input进行表...

2020-05-05 10:58:43 1109

原创 Python中的if __name__ == '__main__'是什么意思呢

if name == 'main’的意思是:当.py文件被直接运行时,if name == 'main’之下的代码块将被运行;当.py文件以模块形式被导入时,if name == 'main’之下的代码块不被运行。对于很多编程语言来说,程序都必须要有一个入口,比如C,C++,以及完全面向对象的编程语言Java,C#等。如果你接触过这些语言,对于程序入口这个概念应该很好理解,C,C++都需要有一个...

2020-05-01 23:26:52 30052 5

原创 轻型异常在线检测器LODA:Lightweight on-line detector of anomalies

LODA的论文:Tomáš Pevn`y. Loda: lightweight on-line detector of anomalies. Machine Learning, 102(2):275–304, 2016.其他LODA的改进论文:Saarinen I: Adaptive real-time anomaly detection for multi-dimensional stream...

2020-05-01 11:57:40 2133

原创 import pyod时出现ImportError: DLL load failed: 找不到指定的模块。

由于在网上没有找到相关的解决办法,这个bug搞了好久。。。。直截了当地说,解决方案是:install pyod后,uninstall numba,然后重新install numba==0.43.1(就是指重新安装一个较久的一个numba版本啦)...

2020-04-30 20:01:06 1198

原创 几种识别概念漂移(concept drift)的方法

一种方法是将最近一段时间的数据与更长时期的数据进行比较。两个窗口的均值的显著变化是概念漂移的标志。比较参考窗口和最近窗口时,还可以比较平均值以外的其他度量。例如,可以估计它们是否由相同的分布生成。为了估计分布,有时可以将不同的方法应用于较长和较短的时间窗口。这两个窗口也可以分别用于进行预测。当最近窗口的准确性高于较长窗口的准确性时,就会发生概念漂移(concept drift),因为如果概念保持...

2020-04-17 10:08:36 5838

翻译 多维流数据的自适应实时异常检测

随着数以百万计的设备中数据的涌现,数据量正在高速增长。这带来了对逐流记录的数据流分析,处理和分析数据的日益增长的需求。在这项工作中,对流分析进行了全面的文献综述,重点是检测异常行为。讨论了流分析的挑战和方法。示出了确定和识别异常的不同方式,并且提出了用于流数据的大量异常检测方法。此外,还介绍了用于流分析的现有软件平台和解决方案。根据文献调查,我选择了一种进一步研究的方法,即轻型异常在线检测器(...

2020-04-11 22:56:31 2626 2

原创 如何在一张图中画多条ROC线?

import numpy as npimport matplotlib.pyplot as pltx = np.linspace(0, 2 * (np.pi)) #numpy.linspace(开始,终值(含终值)),个数)y1 = np.sin(x)y2 = np.cos(x)#画图plt.title('Compare cosx with sinx') #标题#plt.pl...

2020-04-02 16:20:26 9905 3

原创 模型融合之Blending终于学透了!

BlendingBending是一种模型融合方法,对于一般的Blending,主要思路是把原始的训练集先分成两部分,比如70%的数据作为新的训练集,剩下30%的数据作为测试集。第一层我们在这70%的数据上训练多个模型,然后去预测那30%数据的label。在第二层里,我们就直接用这30%数据在第一层预测的结果做为新特征继续训练即可。Blending的优点在于:1.比stacking简单(因为不...

2020-03-30 15:30:22 3829 2

原创 用户贷款风险预测(实战)

训练集读入:user_info_train = pd.read_csv("./train/user_info_train.txt",header=None, names=['用户id','性别','职业','教育程度','婚姻状态', '户口类型'])bank_detail_train = pd.read_csv("./train...

2020-03-15 10:25:56 1301 4

原创 Pandas中的info()函数与describe()函数

对于这两个函数,我首先抛出官网的解释:info()函数和describe()函数1.   info()函数\color{red}{1.\,\,\,info()函数}1.info()函数DataFrame.info(self, verbose=None, buf=None, max_cols=None, memory_usage=None, null_counts=None)Print a c...

2020-03-14 17:42:32 40701

2019年中山大学研究生推免机试题目(数据科学与计算机学院).rar

本人在2019年9月参加了中山大学数据科学与计算机学院的推免面试,将模拟机试的题目记录如下。(正式机试时有原题出现)

2020-03-13

DC_用户贷款风险预测完整数据

融360与平台上的金融机构合作,提供了近7万贷款用户的基本身份信息、消费行为、银行还款等数据信息,需要参赛者以此建立准确的风险控制模型,来预测用户是否会逾期还款。由于该比赛已结束,平台的数据已经无法下载,所以晴天在这里提供给有需要的伙伴。

2020-03-11

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除