ac同学-CSDN博客

原创在线日志解析方法：Drain，Logram

在线日志解析方法Drain和Logram

2022-06-20 20:19:11 2973 3

原创 seaborn画多条线如何修改颜色？默认的渐近色不清晰

在用seaborn画折线图时，一张图中的多条线颜色十分接近。如下图，根本看不清sns.lineplot有一个参数是palette，意思是“调色板????”。官网：https://seaborn.pydata.org/generated/seaborn.lineplot.html该参数可以为string、list、dict、或者是matplotlib.colors.Colormap举个例子：import pandas as pdimport matplotlib.pyplot as pltim

2021-07-22 17:22:47 9442

翻译 Cramér’s V的公式、例子、SPSS

Cramér’s V – What and Why?https://www.spss-tutorials.com/cramers-v-what-and-why/#ref20Cramér’s V is a number between 0 and 1 that indicates how strongly two categorical variables are associated. Cramér’s V 是一个介于 0 和 1 之间的数字，表示两个分类变量的关联程度。If we’d like to

2021-06-28 16:24:07 10996 2

原创面经阿里云算法工程师实习生（已拿offer）

先说一下本人的情况：本211硕985，有项目，论文在投在牛客网上找的和自己研究方向十分契合的岗位，内推下面列举了被问到的一部分问题，另一部分记不得了20210308：面试指导自我介绍简单问了和项目、个人亮点相关的几个问题20210309：技术一面（同事面）自我介绍介绍项目一你们的这一作品目前还在继续使用吗？介绍项目二这个项目的应用场景是什么？Pytorch和tensorflow两个框架的区别（同事做不是算法相关的，问的问题更多有关项目）20210310：技术二面（leader面）

2021-04-17 21:02:11 1683 5

原创 intra-class与inter-class的区别

“inter” means “between” or “among”.“intra” means “within”.从international（国际的）和intranational（国内的）的角度来思考。第一个是“跨多个国家”，第二个是“在一个国家内”。在涉及尝试将样本分配给类别的许多问题中，目标是最大化类别间的差异，并最小化类别内的差异。也就是说，每个类别中的样本必须尽可能相似，而不同类别中的样本必须尽可能不同。参考：https://www.quora.com/Whats-the-differe

2021-04-17 11:40:06 7285

原创面试相关交叉验证

面试被问到交叉验证，今天花了点时间整理了一下交叉验证相关的知识交叉验证：N折交叉验证有两个用途：模型评估（周志华《机器学习》p24）和模型选择。模型评估可以看成是模型选择过程中的一个步骤：先对候选的每个模型进行评估，再选出评估表现最好的模型作为最终模型。把这种策略用于划分训练集和测试集，就可以进行模型评估；把这种策略用于划分训练集和验证集，就可以进行模型选择。交叉验证的核心思想：对数据集进行多次划分，对多次评估的结果取平均，从而消除单次划分时数据划分得不平衡而造成的不良影响。因为这种不良影响在小规模数

2021-03-31 16:03:47 1389 4

原创面试相关生成模型与判别模型的定义和优缺点

生成模型和判别模型**生成模型：**由数据学习联合概率分布 P(X,Y)P(X,Y)P(X,Y)，然后利用贝叶斯定理 P(Y∣X)=P(X,Y)/P(X)P(Y|X)=P(X,Y)/P(X)P(Y∣X)=P(X,Y)/P(X)，求出条件概率分布 P(Y∣X)P(Y|X)P(Y∣X) 作为预测的模型。基本思想是首先建立样本的联合概率密度模型 P(X,Y)P(X,Y)P(X,Y)，然后再得到后验概率 P(Y∣X)P(Y|X)P(Y∣X)，再利用它进行分类。这个过程中还得先求出 P(X)P(X)P(X)，P(X

2021-03-28 14:44:17 1127 2

原创 TCP的拥塞控制方法

最近找实习发现面试官们很喜欢问这个问题，印象中本科大二时的计算机网络那本书写得很详细，找来看了看便有了如下的梳理：TCP进行拥塞控制的算法有四种：慢开始、拥塞避免、快重传和快恢复。1.慢开始和拥塞避免发送方维持一个叫做拥塞窗口cwnd(congestion window)的状态变量。拥塞窗口的大小取决于网络的拥塞程度，并且动态地在变化。发送方让自己的发送窗口等于拥塞窗口。慢开始：当主机开始发送数据时，由于并不清楚网络的负荷情况，所以如果立刻把大量数据字节注入到网络，就可能引起网络发生拥塞。先探测一下

2021-03-25 10:58:57 2241

原创 python实现“时间转时间戳”

import timefrom datetime import datetimedef time2stamp(timestr): #转时间戳函数 datetime_obj=datetime.strptime(timestr[0:19],'%Y/%m/%d %H:%M:%S') obj_stamp=int(datetime.timestamp(datetime_obj)) return obj_stamp#之前是循环遍历转换，效率太低。通过使用函数，瞬间完成！！your_d

2021-03-02 15:57:54 675

原创 LeetCode：26. 删除排序数组中的重复项（python）（第一思路没想到用快慢指针）

解题思路几乎所有的题解都是快慢指针的做法，但看到题目我的第一思路就是：若当第i项和第i+1项相等，则remove第i+1项。但一直报错，，，才发现用for循环无法改变l的值，于是有了下面的while代码，思路见注释。代码class Solution(object): def removeDuplicates(self,nums): """ :type nums: List[int] :rtype: int """

2021-03-02 15:45:58 189

原创基于GAN框架的时间序列异常检测研究综述

一项综述类的课程作业Anomaly detection with generative adversarial networks for multivariate time series.MAD-GAN: Multivariate anomaly detection for time series data with generative adversarial networks.TAnoGAN: Time Series Anomaly Detection with Generative Advers

2021-01-26 11:19:27 9939 3

原创 pytorch中的torch.squeeze()函数

torch.squeeze(input, dim=None, out=None) squeeze()函数的功能是维度压缩。返回一个tensor（张量），其中 input 中大小为1的所有维都已删除。举个例子：如果 input 的形状为 (A×1×B×C×1×D)，那么返回的tensor的形状则为 (A×B×C×D)当给定 dim 时，那么只在给定的维度（dimension）上进行压缩操作。举个例子：如果 input 的形状为 (A×1×B)，squeeze(input, 0)后，返回的tensor

2020-08-03 16:46:12 53911 2

原创 numpy中的transpose()函数

transpose()函数：二维数组，类似于求矩阵的转置：import numpy as npx=np.arange(4).reshape((2,2)) #生成一个2*2的数组print('x:')print(x)y=np.transpose(x)print('y:')print(y)输出：可以看到，二维数组的行列索引值互换，如：数字“1”的索引由（0，1）变为（1，0）。三维数组：import numpy as npx=np.arange(12).reshape((2,2,

2020-08-03 08:53:04 2026

翻译 2019 Cross-dataset Time Series Anomaly Detection for Cloud Systems云系统的跨数据集时间序列异常检测

最近看了一篇有关“云系统的跨数据集时间序列异常检测”的文章，文章发表在系统领域顶级会议 USENIX ATC 2019 上。文章提出了基于迁移学习和主动学习的跨数据集异常检测框架，可以有效地在不同时间序列数据集之间进行迁移，只需要1%-5% 的标注样本量即可达到高精度检测。原文链接：https://www.usenix.org/system/files/atc19-zhang-xu.pdfCross-dataset Time Series Anomaly Detection for Cloud Syste

2020-07-25 16:48:03 1691

原创 Project SAAAD: Scalable Adaptive Auto-encoded Anomaly Detection

Project SAAAD:Scalable Adaptive Auto-encoded Anomaly Detection 可扩展的自适应自动编码异常检测Project SAAAD aims to explore the use of autoencoders for anomaly detection in various ‘big-data’ problems. Specifically, these problems have the following complexities:SAAAD项目

2020-06-17 08:57:19 458

原创 get_fscore的参数fmap

在实现XGBoost是，参考网上的代码，发现很多朋友使用get_fscore这个函数获取每个特征的feature score时，用了fmap这一参数。这个参数到底是什么意思呢？官方文档如下：https://xgboost.readthedocs.io/en/latest/python/python_api.html所以，到底是什么意思呢？举个例子：如果我的特征的名字就是从1开始的自然数。在没有该参数的时候，输出是这样的：那么如果加上该参数，而文件为空，那么输出会变成：其实就是一个特征名字的映射

2020-06-13 15:32:07 2695

原创 df.fillna()函数，参数method取值ffill

官方文档：https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.fillna.html?highlight=fillna#pandas.DataFrame.fillnamethod：插值方式，默认为’ffill’，向前填充，或是向下填充而‘bfill’：向后填充，或是向上填充举个栗子：...

2020-06-09 17:24:50 13794 6

原创 dropna(thresh=n) 的用法

thresh这个参数是保留下来的每一行，其非NA的数目>=n。下面举一个例子：

2020-06-09 16:55:02 5190

原创吴恩达 1.10 梯度消失与梯度爆炸

训练神经网络尤其是深度神经网络所面临的一个问题是梯度消失或梯度爆炸也就是说当你训练深度网络时导数或坡度有时会变得非常大或非常小甚至以指数方式变小这加大了训练的难度这节课你将会了解梯度消失或爆炸问题的真正含义以及如何更明智地选择随机初始化权重从而避免这个问题假设你正在训练这样一个极深的神经网络：为了节约幻灯片上的空间，我画的神经网络每层只有两个隐藏单元，但它可能含有更多。但这个神经网络会有参数w[1]w^{[1]}w[1]，w[2]w^{[2]}w[2]，w[3]w^{[3]}w[

2020-06-08 16:24:36 373

原创解决ImportError: cannot import name toimage

1. from scipy.misc import toimage 改为 from PIL import Image2. toimage 改为 Image.fromarrayfrom keras.datasets import cifar10from matplotlib import pyplot as plt# from scipy.misc import toimagefrom PIL import Imageimport numpy as np# 导入数据(X_train, y_t

2020-06-05 08:14:33 2106

原创 ImportError: Could not find the DLL(s) ‘msvcp140_1.dll’. TensorFlow requires that these DLLs be

报错如下：解决方案：在这里https://support.microsoft.com/zh-cn/help/2977003/the-latest-supported-visual-c-downloads选择对应文件下载安装：安装完成就可以了！之前看到安装过2015（https://www.microsoft.com/en-us/download/details.aspx?id=53587），安装了不行，换了这个2015-2019就立刻好了！...

2020-05-29 21:33:40 4884 7

原创阅读笔记（2019）Deep Learning for Anomaly Detection: A Survey

原文：https://www.researchgate.net/publication/330357393_Deep_Learning_for_Anomaly_Detection_A_Survey论文首先对基于深度学习的异常检测的研究方法进行了系统全面的概述。此外，还回顾了这些方法在不同应用领域中的应用，并评估了它们的有效性。根据基本的假设和采用的方法，将最先进的深度异常检测研究技术分为不同的类别。在每个类别中，作者概述了基本的异常检测技术及其变体，并提出了区分正常和异常行为的关键假设。对于每个类别，

2020-05-28 14:17:59 4792

翻译 (ch11~13) Deep Learning for Anomaly Detection: A Survey

Deep Learning for Anomaly Detection: A Surveyhttps://www.researchgate.net/publication/330357393_Deep_Learning_for_Anomaly_Detection_A_Surveych8:https://blog.csdn.net/qq_40305043/article/details/106310729ch9:https://blog.csdn.net/qq_40305043/article/deta

2020-05-28 10:32:40 671

翻译 (ch10) Deep Learning for Anomaly Detection: A Survey

Deep Learning for Anomaly Detection: A Surveyhttps://www.researchgate.net/publication/330357393_Deep_Learning_for_Anomaly_Detection_A_Survey10 Deep Anomaly Detection (DAD) ModelsIn this section, we discuss various DAD models classified based on the avai

2020-05-27 13:55:02 1013

翻译 (ch9) Deep Learning for Anomaly Detection: A Survey

9 Applications of Deep Anomaly Detection 深度异常检测的应用9.1 Intrusion Detection9.2 Fraud Detection9.3 Malware Detection9.4 Medical Anomaly Detection9.5 Deep learning for Anomaly detection in Social Networks9.6 Log Anomaly Detection9.7 Internet of things (

2020-05-25 23:27:10 1598

翻译 (ch8) Deep Learning for Anomaly Detection: A Survey

Deep Learning for Anomaly Detection: A Surveyhttps://www.researchgate.net/publication/330357393_Deep_Learning_for_Anomaly_Detection_A_Survey8.3 Based on the training objective 基于训练目标在本研究中，我们介绍了两种新的基于采用的训练目标的深度异常检测(DAD)技术：1)深度混合模型(DHM)。2)一类神经网络(OC-NN)。8

2020-05-24 17:11:07 1207

转载什么是张量？

张量的通俗理解：https://www.cnblogs.com/abella/p/10142935.html

2020-05-21 14:53:11 287

原创 python中sklearn的pipeline模块

Pipelines and composite estimators（官方文档）转换器通常与分类器，回归器或其他估计器组合在一起，以构建复合估计器。最常用的工具是Pipeline。Pipeline通常与FeatureUnion结合使用，FeatureUnion将转换器的输出连接到一个复合特征空间中。 TransformedTargetRegressor处理转换目标（即对数变换y）。相反，Pipelines仅转换观察到的数据（X）。Pipeline可用于将多个估计器链接为一个。这很有用，因为在处理数据时通

2020-05-19 11:23:04 4249

原创 sklearn相关API

sklearn.model_selection.cross_val_score:https://scikit-learn.org/stable/modules/generated/sklearn.model_selection.cross_val_score.html#sklearn.model_selection.cross_val_scoresklearn.model_selection.GridSearchCV:https://scikit-learn.org/stable/modules/gen.

2020-05-18 20:25:52 255

原创 TensorFlow与Keras的关系

TensorFlow:TensorFlow和CNTK一样，也是Python中一个快速的数值运算类库，有Google开发并开源。同样的，TensorFlow也是深度学习的一个基础类库，可以用于直接创建深度学习的模型，或者使用**TensorFlow的封装（如Keras）**来实现深度学习的模型。CNTK和TensorFlow这两个快速数值计算类库，被广泛应用在深度学习项目的研究与开发当中。这两个类库虽然非常强大，但是在实际应用中直接使用这两个类库是非常困难的。因此，在深度学习的项目中使用Keras(一个

2020-05-17 11:12:53 2463

2019年中山大学研究生推免机试题目（数据科学与计算机学院）.rar

DC_用户贷款风险预测完整数据

空空如也