V丶Chao-CSDN博客

原创深度学习实验结果可复现所需设置 - 随机数等内容设置

20210408 -0. 引言最近在进行深度学习相关的实验，但是发现虽然数据每次都一样，最后的实验效果却不是很一样（并非仅仅测试准确率）。在实验过程中，发现是随机数设置的问题。但是已经设置了一些，后来发现其实远远不仅仅是这些，还有一些其他的因素。本人实验环境如下：python == 3.6.9Keras == 2.4.3tensorflow-gpu == 2.3.11. 相关搜索1.1 个人博客在文章[1]中，提供了使用keras时应该进行的相关代码结构，在使用Keras时，主要要进行的

2021-04-08 16:14:56 1406 6

原创半监督学习简单综述（标签化过程）

20210117 -0. 引言（本篇文章算是自己阅读《An overview of proxy-label approaches for semi-supervised learning》过程中的记录，将其中的观点记录下来；其中的内容，可能并非原文中的内容，而是自己的思考；读者如果有兴趣，最好是阅读原文，更好体会作者的意思）无监督的相对于有监督的方法来说，准确率不尽人意，甚至于在某些场景下，可能会非常低。所以，标签的存在，导致这两种方法可能差别特别大。而实际上，很多问题的却都是无监督的，因为数据采集起

2021-01-19 10:19:29 2096

原创 Centos8安装英伟达显卡驱动并通过docker部署深度学习环境

20201107 -0. 引言之前的时候，在实验室的深度学习服务器上安装深度学习的环境，部署的文章在《Docker部署容器使用GPU并搭建jupyter环境》，当时很多东西都不是很懂，但是基本上匹配上了版本就没什么问题。但是因为一些原因，底层的驱动被人搞崩了，导致很多命令直接失效了，完全就是崩溃的效果。所以只能选择重装。本次重装，操作系统选取centos8，物理机上还是原来的三块Tesla p100，显卡驱动升级为450，暂时没有必要使用更高版本。本次同样采用docker的部署形式，仅仅需要在底层宿主

2020-11-07 19:50:07 4385 1

原创一类学习（OCSVM）

20201102 -0. 引言我记得我第一次接触一类学习的时候，是在一本讲解异常流量的书上。大概18年的时候，当时有一个需求，就是所处的场景下，只能拥有一类数据，而其他类的数据，要不获取不到，要不获取了也不具备什么代表性，总体上就是这么一个场景。由此接触到了一类学习，而一类学习中，比较著名的就是基于SVM的解决方法，关于SVM的讲解，可以看博客中另外一篇文章《支持向量机SVM的学习》，那么本篇文章就来具体讲讲一类SVM是一个什么套路。本篇文章主要参考了两篇国外的博客来进行学习，分别是数学原理角度和代码

2020-11-02 21:55:06 9682 5

原创《异常点检测》 - 第十章阅读记录 - 离散序列的异常点检测

20201006 -本文主要作为《异常点检测》的第十章的内容记录，文章按照顺序的方式来进行记录，想到什么记录什么，暂时可能没有条例。1. 基础概念记录1.1 离散数据的定义离散数据与连续数据有所不同，离散数据在实际中主要有两种。基于时间的离散数据，例如用户操作序列，这种在时间上有一个递进的关系基于位置的离散数据，例如生物数据，这种在位置上有所区分两种数据的主要区别就是在于他们不同位置的数据主要是按照是什么区分，是时间，还是位置。但本质上都是带有次序的字符序列。1.2 离散数据的一个难点

2020-10-06 22:26:53 1040

原创高并发HTTP请求客户端 - python语言编写

20200902 -0. 引言之前的时候接触过高并发相关的内容，当时接触了类似epool这种编程模型，或者更高级的libev这种时间编程；但是这些都是面向服务端的内容，类似C10K这种经典问题。而对于客户端来说，虽然有很多不同语言或者不同类型的压测工具，但很少有介绍自己来编写这部分内容的。通过百度搜索也可以看到相应的结果。也可能是搜索的关键词不对，反正从百度的搜索结果来看，基本上没有什么有效的结果。但是，直接在谷歌上搜索，是可以找到相应的博文的。所以，本篇文章从搜索得到的结果来入手，学习如何满足这部

2020-09-03 21:17:39 2281 4

原创 GAN的编写 - tensorflow形式（tensorflow与GAN同学习，重点分析训练过程）

20200901 -0. 引言之前的时候对keras框架编写的GAN网络进行了介绍《GAN的学习 - 训练过程（冻结判别器）》，但是发现去查看源代码的时候，经常有使用tensorflow框架编写的代码，所以寻思着把tensorflow框架也学一学，但是发现很多内容与keras是不一样的，例如可以自己定位网络参数，训练过程也不仅仅是fit那么简单；在涉及GAN时，更不需要利用trainable这种属性来实现判别器的冻结。本篇文章学习一下利用tensorflow来进行GAN的编写。1. GAN的代码编写

2020-09-02 15:41:05 2115 2

原创 GAN的学习 - 训练过程（冻结判别器）

20200823 -0. 引言在前一篇文章《GAN的学习》中简单介绍了构造GAN的过程，包括如何构造生成器和判别器，如何训练GAN等，但是其中存在一个问题，就是在训练过程中怎么保证判别器不更新权值。下面针对这部分进行具体的描述。1. 整体的流程...

2020-08-23 09:52:55 11770

原创 GAN的学习 - 基础知识了解

20200818 -引言最近看到了一些论文，是GAN在密码生成（PassGAN）、DGA检测（DeepDGA）这些论文，所以希望深入了解一下GAN的内容。之前的时候，只是直到GAN是什么东西，通过训练两个神经网络，然后相互促进来实现检测的目标，不过没有深入了解过。这里根据刚刚阅读的一篇文章[1]来记录下学习的内容。大部分内容是文章[1]的原始内容，加上自己的理解。GAN的结构不管是什么网站，只要一介绍GAN就会告诉你：**GAN由两个部分组成，一个部分是生成器，一个部分是判别器。**那么具体，他们

2020-08-19 08:45:05 2358

原创 LSTM生成文本（字符级别）

20200817 -引言在网上看到过一些利用深度学习来生成文本的文章，不管生成宋词也好，生成小说也好，各种各样，都是利用深度学习的模型来生成新的东西。之前的时候，我也一直觉得，他们这种生成方式，应该就是记忆性的东西，他并没有真正的从语义的角度上理解这个文章。当然，我自己也是才疏学浅，本身就不是专门搞这种东西的人。本篇文章中，记录一下我在网上看到的一篇利用LSTM生成文本的文章。需要注意的几个点是1）训练过程中，输入的是什么2）根据输出，预测的又是什么3）最后输出的内容是否可读，又是否有意义，是否

2020-08-17 21:09:38 1461

原创大规模数据的PCA降维

20200810 -0. 引言最近在做的文本可视化的内容，文本处理的方法是利用sklearn的CountVer+Tf-idf，这样处理数据之后，一方面数据的维度比较高，另一方面呢，本身这部分数据量也比较大。如果直接使用sklearn的pca进行降维，会很慢，而且pca也没有n_jobs来支持多线程工作。不过，我看到spark中已经支持的pca了，所以希望通过spark来实现这部分内容。1. spark的PCA算法1.1 官方使用示例>>> from pyspark.ml.lina

2020-08-10 16:41:52 1800

原创 charactor级别处理字符串及2vec

20200810 -引言本篇文章来记录一些自然语言中处理字符或者字符串的一些方法。（本人非专业人士，主要就是从网上顺着思路来弄一些东西，参考时请结合自己的实际情况）gram处理在一些其他的博客中，大多数都是针对句子或者文章进行分析，其分析的单位是一个单词，这也是word2vec的主要工作。但是，我这里的一个需求是，对DGA域名进行分析，这里面没有单词的概念。这里记录几个关于这部分内容的处理方式。也就是说，我处理的应该是字符级别的n-gram内容。定义要处理的内容是字符串的数组，每个元素都是"goo

2020-08-10 10:40:19 1081

原创 DGA - 研究内容整理

20200809 -引言DGA算法是一种生成域名的算法：以时间或者一些特定字符串作为种子，然后利用一定的算法（例如加密算法），来生成随机域名的方式。恶意软件的制作者通过这种方式来迷惑安全工作者，传统的恶意软件利用硬编码的方式将CC域名保存在程序中，安全工作者可以对这部分域名进行封堵实现截断通信的过程。在DGA算法的帮助下，恶意程序会发出大量DNS请求（包含DGA生成的域名），而制作者利用同样的算法和同样的种子生成同样的列表，从中挑选任意个在DNS厂商进行注册，以此躲避封堵。而针对DGA的研究，可以有

2020-08-09 16:14:06 1806

原创 spark进行大数据量的爆破计算任务（分布式）

20200806 -1. 引言在编程过程中，遇到这样一个问题，给定一个范围，需要通过对这个范围的内容数值进行运算来返回结果。说白了，就是进行爆破。但是这个数据量太大了，0-0xffffffff，可以想象这个数据量有多大。一开始的时候我在想使用python的多线程/多进程来完成这个工作，但是我记得python有一个全局锁，并不是真正意义上的多线程（这部分知识需要回顾一下）。所以，我就考虑使用spark或者hadoop来进行这部分运算来实现。2. spark的分段式计算2.1 问题描述平时的时候，使用

2020-08-06 16:55:29 1428 1

原创 Mirai环境搭建

20200805 -引言关于Mirai的环境搭建，我记得能搜到很多结果。不过我当时并没有想要启动mirai的所有功能。毕竟其实他的代码也有缺陷，现在想扫出来结果也有点难了。后面可能还是需要这些功能来辅助扫描结果，其他功能还是要开启。这里先记录一个别人的搭建步骤，后面再来记录我自己的。[1]他人环境搭建在这个环境的部署过程中，需要下载很多东西，包括各种乱七八糟的东西，还有交叉编译的环境，为了获得CNC的服务器，还要有go的启动环境。我个人觉得，还是弄一个docker的环境更好。参考文章[1] Mi

2020-08-05 14:15:03 3303

原创 Spark机器学习实例

2020/07/09 -引言《Learning Spark》过程中只是简单介绍了mllib中的东西，没有一个完整的实践过程，暂时还没有去找有没有专门做这种的书，好像我看《spark in action》是有这部分内容，后续在看。本篇文章就利用这个鸢尾花的数据集来简单说明一下spark机器学习的过程，只是简单打下一个轮廓，然后记录使用过程中遇到的问题以及解决方案。在本文中，主要使用新版面向Da...

2020-07-09 09:09:48 12069 2

原创 Docker部署容器使用GPU并搭建jupyter环境

2020/07/02 -引言实验室的深度学习服务器的环境，因为一直是公用的，各种库总是被人搞得乱七八糟；因为机器上很多个版本的python，我也不知道具体该怎么弄。现在的情况，说是给按照给学生分配jupyter的形式，但实际上有人有密码，有时候也会出现各种库被动。所以这里我就想着能不能实现深度学习库的容器化。而且，我觉得一些提供深度学习服务的厂商，应该也是这种部署方式把，毕竟这种比较方便。那...

2020-07-02 10:33:12 1766

原创 Supervisor答疑

supervisor可以管理多个进程，安装也比较简单，可以使用apt或者是pip。推荐使用apt安装。

2024-04-23 16:58:41 336

原创 CRF条件随机场学习记录

那么结合发射概率和转移概率这些概念，以及CRF所做的假设，或者说其模型公式中的相关限制，依然利用词性标注这个问题来解释：每个单词的词性，他不仅仅和当前的单词有关，他还和前一个单词的词性有关。注意，他是和上一个单词的词性有关。所以建模的时候要干的事情到底是什么？也就是同时考虑当前单词的属性，同时也要考虑上一个标注结果从而输出一个序列解决。相应的，特征函数的写法也就是fXili−1lifXili−1liiii指代当前处理单词的位置，lll指标记结果。

2024-01-30 18:23:45 1042

原创 docker安装overleaf并升级texlive

20230321。

2023-03-21 11:23:58 1214 1

原创终端配色-Docker容器终端

20230309 -

2023-03-09 19:04:07 1194

原创 VSCode问题记录

20230304 -

2023-03-04 17:12:10 600

原创爬虫碎碎念

20230304 -（非专业人士，简单记录自己的需求和思考）

2023-03-04 11:14:16 769

原创逃避浏览器JS检测打开开发者工具

虽然最后弄到了我想要的结果，但是实际上，还是没有从本质的反扒策略上搞清楚到底咋回事。就比如说，我想看看他到底怎么检测的，还是得从源码的角度来弄。不过我看了看，这些视频网站最后断点位置的代码都比较相似，估计都是使用了类似的库，所以后续可以看看到底是哪个库，然后弄明白他是利用了什么检测方式。

2023-03-04 10:59:36 1718

原创 Torch同时训练多个模型

20230302。

2023-03-02 09:55:26 1261

原创 Torch单独层赋值

20230227 -

2023-02-27 20:12:57 506

原创 Keras默认权值初始化方式

20230117 -在最初使用Keras进行神经网络编程的时候，除了设置神经元个数，层数，或者激活函数之后，基本上对神经网络内部就不怎么管了，所以最后很多参数都是默认的。这种情况一般遇到的数据集问题，都能轻易解决。一般不是层数非常深的神经网络，偶尔也遇到过梯度爆炸和消失的问题。但最近遇到一个数据集，默认的情况下效果也还行，但希望更进一步。就希望通过权值初始化的角度来进行改进。

2023-02-17 14:56:04 675

原创分布式机器学习

20221216 -（本文为在进行大量的实验过程中的一些思考，主要关注利用分布式平台进行实验的相关内容，内容暂时不加整理，想到什么写什么）

2022-12-16 17:08:15 821

原创 keras框架下的VAE的代码撰写

20221117 -

2022-11-17 15:17:40 802

原创 python重新加载某方法

20221014 -

2022-10-14 15:58:51 400

原创提升KNN的运行效率

20221005 -

2022-10-05 11:11:39 1279

原创一维数据聚类

20220924 -在以往的学习中，通常聚类行为都是应用于高维数据，或者利用2维数据，最为实验性验证过程。但是最近遇到了一项任务，对某数据处理的结果进行处理，处理完之后，数据只有一维，如果数据内容比较简单，那么用直方图绘制之后，可以发现只有两个簇，而且距离也比较远。当然，这种情况比较少。那么这里其实引发一个问题，怎么来划分开两个类别，这也是我思考的问题。一开始的时候，我也不太理解，就想着利用聚类的方法。那么首先想到的就是kmeans这种方式咯。

2022-09-24 11:07:33 2735

原创 python多进程编程

20220917 -最近在做论文相关的实验，虽然深度学习部分由底层框架来实现，但是在后续的机器学习实验中，由于涉及到一些算法不能并行跑，所以导致速度比较慢。比如测试10个参数，那么跑十次，速度就下降很多。考虑到使用的机器CPU数量还比较多，那么就将其改变为多进程的执行方式。这部分编程，我记得在几年前在进行日志处理的时候弄过这部分内容，当时也是采用多进程以及多线程的方式。当时是利用类定义的方式，定义队列等内容，逐步进行处理。

2022-09-17 16:02:04 221

原创后台运行程序 - Tmux及问题记录

20220826 -平时进行研究性东西的时候，比较喜欢jupyter-notebook的形式，比如进行数据分析或者模型初期构造的时候，这样能够避免一些繁琐的内容；后来，如果程序固定之后，需要批量化进行实验的时候，就喜欢改成脚本的形式，这样直接跑。但是平时的时候，喜欢利用实验室的服务器来进行任务，那么远程ssh就成了主要的链接手段。为了批量化进行任务，就需要长时间保持链接，电脑不关机，但是有时候也会因为各种原因，偶尔掉线，那么就导致自己的程序没了。...

2022-08-26 14:17:17 816

原创 Pytorch与keras的差别

20220825 -在前期，一直是使用keras进行深度学习相关的编程，但后来由于学习各种其他源码的缘故，也学习了pytorch的相关方式。使用之后发现，有时候如果对各种损失函数进行深层次的编写的时候，采用pytorch会更方便。因此便查阅了两者的区别和优势，具体见文章[1]。但是在介绍别人文章的时候，先简单说一下自己的感受。

2022-08-25 15:00:29 2639

原创 joblib嵌套式并行运行方式

20220811 -

2022-08-11 21:17:48 681

原创 KDE相关记录

20220809 -在使用KDE的过程中，涉及到一些参数选择，或者运行速度的问题。目前经过调试之后，对各个部分的内容都进行了涉及，这里记录一下。首先，KDE（kernel density estimate)，是一种无参数的概率密度估计方法？（这里没说错吧，感觉好久没看，都忘了）那么对于这个方法来说，比较重要的参数就是bandwidth，选择这个参数，有很多方法，如果从机器学习的角度来说，那么直接使用交叉验证的方法即可，他验证的方式是比较最大似然估计的数值，具体代码如下。...

2022-08-11 20:07:01 357

原创 Sklearn通过precision_recall_curve获取F1最大值

之前的时候，由于并不是每次都出现这样的结果，所以并没有在意这个事情。现在大规模做实验的时候，发现经常报错，所以就谷歌查了查，本质上看这个报错大致也清楚，就是有些数值不满足除法条件，不过我尝试加了一个非常小的数，也并没有起到效果。来获取精确率和召回率，并且计算F1的最大值，通过阈值的问题，查看分类器的最高性能，代码如下，然后计算。，这个警告，然后输出最高的F1时，结果为nan。然后搜索了之后查到了对应的解决策略。平时为了查看分类器的性能，会利用。本质上，让除法能够避免这些数值。但是在这个过程中，会遇到。...

2022-07-18 09:30:22 1684 1

原创 Pytorch学习

202206026 -最近在看开源代码论文的时候，看到很多作者都是采用torch来进行编码，但是我平时都是使用keras进行编码，所以我自己也准备学习一下。但是因为平时学习的时候，都是有问题就查询一下，毕竟再完整系统的学习太浪费时间了，我也只是想看到作者代码而已。所以这篇文章就来记录下自己学习的过程。1）Understanding PyTorch with an example: a step-by-step tutorial这篇文章算是我学习过程中，第一篇比较基础的文章了，算是非常全面了，通过这篇文章，差

2022-06-26 16:15:07 259

原创深度学习学习率的调整

20220626 -最近在做实验的时候，由于结果一直都不怎么好，我就在想是不是过拟合了。那就算不是过拟合，是不是根本没有学习到数据集中的信息呢？想到了这些事情，我就直接把测试集的效果跟随着训练过程直接打印出来了。（当然，实际过程中，肯定是不该以这个过程来作为最终的评判目标，但是在检验阶段还是很有用的）通过查看这个过程就发现，随着训练过程，在前期，的确是发现检验指标在上升，这个过程是很正常的，毕竟前期还是能够学习到一些信息的。（实验过程采用的是自编码器进行异常检测）。但是达到了一定程度之后，大部分时候学习到2

2022-06-26 15:53:58 1141

空空如也

空空如也