V丶Chao-CSDN博客

原创深度学习实验结果可复现所需设置 - 随机数等内容设置

20210408 -0. 引言最近在进行深度学习相关的实验，但是发现虽然数据每次都一样，最后的实验效果却不是很一样（并非仅仅测试准确率）。在实验过程中，发现是随机数设置的问题。但是已经设置了一些，后来发现其实远远不仅仅是这些，还有一些其他的因素。本人实验环境如下：python == 3.6.9Keras == 2.4.3tensorflow-gpu == 2.3.11. 相关搜索1.1 个人博客在文章[1]中，提供了使用keras时应该进行的相关代码结构，在使用Keras时，主要要进行的

2021-04-08 16:14:56 1797 6

原创半监督学习简单综述（标签化过程）

20210117 -0. 引言（本篇文章算是自己阅读《An overview of proxy-label approaches for semi-supervised learning》过程中的记录，将其中的观点记录下来；其中的内容，可能并非原文中的内容，而是自己的思考；读者如果有兴趣，最好是阅读原文，更好体会作者的意思）无监督的相对于有监督的方法来说，准确率不尽人意，甚至于在某些场景下，可能会非常低。所以，标签的存在，导致这两种方法可能差别特别大。而实际上，很多问题的却都是无监督的，因为数据采集起

2021-01-19 10:19:29 2500

原创 Centos8安装英伟达显卡驱动并通过docker部署深度学习环境

20201107 -0. 引言之前的时候，在实验室的深度学习服务器上安装深度学习的环境，部署的文章在《Docker部署容器使用GPU并搭建jupyter环境》，当时很多东西都不是很懂，但是基本上匹配上了版本就没什么问题。但是因为一些原因，底层的驱动被人搞崩了，导致很多命令直接失效了，完全就是崩溃的效果。所以只能选择重装。本次重装，操作系统选取centos8，物理机上还是原来的三块Tesla p100，显卡驱动升级为450，暂时没有必要使用更高版本。本次同样采用docker的部署形式，仅仅需要在底层宿主

2020-11-07 19:50:07 5445 2

原创一类学习（OCSVM）

20201102 -0. 引言我记得我第一次接触一类学习的时候，是在一本讲解异常流量的书上。大概18年的时候，当时有一个需求，就是所处的场景下，只能拥有一类数据，而其他类的数据，要不获取不到，要不获取了也不具备什么代表性，总体上就是这么一个场景。由此接触到了一类学习，而一类学习中，比较著名的就是基于SVM的解决方法，关于SVM的讲解，可以看博客中另外一篇文章《支持向量机SVM的学习》，那么本篇文章就来具体讲讲一类SVM是一个什么套路。本篇文章主要参考了两篇国外的博客来进行学习，分别是数学原理角度和代码

2020-11-02 21:55:06 10913 5

原创《异常点检测》 - 第十章阅读记录 - 离散序列的异常点检测

20201006 -本文主要作为《异常点检测》的第十章的内容记录，文章按照顺序的方式来进行记录，想到什么记录什么，暂时可能没有条例。1. 基础概念记录1.1 离散数据的定义离散数据与连续数据有所不同，离散数据在实际中主要有两种。基于时间的离散数据，例如用户操作序列，这种在时间上有一个递进的关系基于位置的离散数据，例如生物数据，这种在位置上有所区分两种数据的主要区别就是在于他们不同位置的数据主要是按照是什么区分，是时间，还是位置。但本质上都是带有次序的字符序列。1.2 离散数据的一个难点

2020-10-06 22:26:53 1274

原创高并发HTTP请求客户端 - python语言编写

20200902 -0. 引言之前的时候接触过高并发相关的内容，当时接触了类似epool这种编程模型，或者更高级的libev这种时间编程；但是这些都是面向服务端的内容，类似C10K这种经典问题。而对于客户端来说，虽然有很多不同语言或者不同类型的压测工具，但很少有介绍自己来编写这部分内容的。通过百度搜索也可以看到相应的结果。也可能是搜索的关键词不对，反正从百度的搜索结果来看，基本上没有什么有效的结果。但是，直接在谷歌上搜索，是可以找到相应的博文的。所以，本篇文章从搜索得到的结果来入手，学习如何满足这部

2020-09-03 21:17:39 2524 4

原创 GAN的编写 - tensorflow形式（tensorflow与GAN同学习，重点分析训练过程）

20200901 -0. 引言之前的时候对keras框架编写的GAN网络进行了介绍《GAN的学习 - 训练过程（冻结判别器）》，但是发现去查看源代码的时候，经常有使用tensorflow框架编写的代码，所以寻思着把tensorflow框架也学一学，但是发现很多内容与keras是不一样的，例如可以自己定位网络参数，训练过程也不仅仅是fit那么简单；在涉及GAN时，更不需要利用trainable这种属性来实现判别器的冻结。本篇文章学习一下利用tensorflow来进行GAN的编写。1. GAN的代码编写

2020-09-02 15:41:05 2328 2

原创 GAN的学习 - 训练过程（冻结判别器）

20200823 -0. 引言在前一篇文章《GAN的学习》中简单介绍了构造GAN的过程，包括如何构造生成器和判别器，如何训练GAN等，但是其中存在一个问题，就是在训练过程中怎么保证判别器不更新权值。下面针对这部分进行具体的描述。1. 整体的流程...

2020-08-23 09:52:55 13957

原创 GAN的学习 - 基础知识了解

20200818 -引言最近看到了一些论文，是GAN在密码生成（PassGAN）、DGA检测（DeepDGA）这些论文，所以希望深入了解一下GAN的内容。之前的时候，只是直到GAN是什么东西，通过训练两个神经网络，然后相互促进来实现检测的目标，不过没有深入了解过。这里根据刚刚阅读的一篇文章[1]来记录下学习的内容。大部分内容是文章[1]的原始内容，加上自己的理解。GAN的结构不管是什么网站，只要一介绍GAN就会告诉你：**GAN由两个部分组成，一个部分是生成器，一个部分是判别器。**那么具体，他们

2020-08-19 08:45:05 2623

原创 LSTM生成文本（字符级别）

20200817 -引言在网上看到过一些利用深度学习来生成文本的文章，不管生成宋词也好，生成小说也好，各种各样，都是利用深度学习的模型来生成新的东西。之前的时候，我也一直觉得，他们这种生成方式，应该就是记忆性的东西，他并没有真正的从语义的角度上理解这个文章。当然，我自己也是才疏学浅，本身就不是专门搞这种东西的人。本篇文章中，记录一下我在网上看到的一篇利用LSTM生成文本的文章。需要注意的几个点是1）训练过程中，输入的是什么2）根据输出，预测的又是什么3）最后输出的内容是否可读，又是否有意义，是否

2020-08-17 21:09:38 1700

原创大规模数据的PCA降维

20200810 -0. 引言最近在做的文本可视化的内容，文本处理的方法是利用sklearn的CountVer+Tf-idf，这样处理数据之后，一方面数据的维度比较高，另一方面呢，本身这部分数据量也比较大。如果直接使用sklearn的pca进行降维，会很慢，而且pca也没有n_jobs来支持多线程工作。不过，我看到spark中已经支持的pca了，所以希望通过spark来实现这部分内容。1. spark的PCA算法1.1 官方使用示例>>> from pyspark.ml.lina

2020-08-10 16:41:52 2244

原创 charactor级别处理字符串及2vec

20200810 -引言本篇文章来记录一些自然语言中处理字符或者字符串的一些方法。（本人非专业人士，主要就是从网上顺着思路来弄一些东西，参考时请结合自己的实际情况）gram处理在一些其他的博客中，大多数都是针对句子或者文章进行分析，其分析的单位是一个单词，这也是word2vec的主要工作。但是，我这里的一个需求是，对DGA域名进行分析，这里面没有单词的概念。这里记录几个关于这部分内容的处理方式。也就是说，我处理的应该是字符级别的n-gram内容。定义要处理的内容是字符串的数组，每个元素都是"goo

2020-08-10 10:40:19 1236

原创 DGA - 研究内容整理

20200809 -引言DGA算法是一种生成域名的算法：以时间或者一些特定字符串作为种子，然后利用一定的算法（例如加密算法），来生成随机域名的方式。恶意软件的制作者通过这种方式来迷惑安全工作者，传统的恶意软件利用硬编码的方式将CC域名保存在程序中，安全工作者可以对这部分域名进行封堵实现截断通信的过程。在DGA算法的帮助下，恶意程序会发出大量DNS请求（包含DGA生成的域名），而制作者利用同样的算法和同样的种子生成同样的列表，从中挑选任意个在DNS厂商进行注册，以此躲避封堵。而针对DGA的研究，可以有

2020-08-09 16:14:06 2202

原创 spark进行大数据量的爆破计算任务（分布式）

20200806 -1. 引言在编程过程中，遇到这样一个问题，给定一个范围，需要通过对这个范围的内容数值进行运算来返回结果。说白了，就是进行爆破。但是这个数据量太大了，0-0xffffffff，可以想象这个数据量有多大。一开始的时候我在想使用python的多线程/多进程来完成这个工作，但是我记得python有一个全局锁，并不是真正意义上的多线程（这部分知识需要回顾一下）。所以，我就考虑使用spark或者hadoop来进行这部分运算来实现。2. spark的分段式计算2.1 问题描述平时的时候，使用

2020-08-06 16:55:29 1592 1

原创 Mirai环境搭建

20200805 -引言关于Mirai的环境搭建，我记得能搜到很多结果。不过我当时并没有想要启动mirai的所有功能。毕竟其实他的代码也有缺陷，现在想扫出来结果也有点难了。后面可能还是需要这些功能来辅助扫描结果，其他功能还是要开启。这里先记录一个别人的搭建步骤，后面再来记录我自己的。[1]他人环境搭建在这个环境的部署过程中，需要下载很多东西，包括各种乱七八糟的东西，还有交叉编译的环境，为了获得CNC的服务器，还要有go的启动环境。我个人觉得，还是弄一个docker的环境更好。参考文章[1] Mi

2020-08-05 14:15:03 3613

原创 Spark机器学习实例

2020/07/09 -引言《Learning Spark》过程中只是简单介绍了mllib中的东西，没有一个完整的实践过程，暂时还没有去找有没有专门做这种的书，好像我看《spark in action》是有这部分内容，后续在看。本篇文章就利用这个鸢尾花的数据集来简单说明一下spark机器学习的过程，只是简单打下一个轮廓，然后记录使用过程中遇到的问题以及解决方案。在本文中，主要使用新版面向Da...

2020-07-09 09:09:48 15332 2

原创 Docker部署容器使用GPU并搭建jupyter环境

2020/07/02 -引言实验室的深度学习服务器的环境，因为一直是公用的，各种库总是被人搞得乱七八糟；因为机器上很多个版本的python，我也不知道具体该怎么弄。现在的情况，说是给按照给学生分配jupyter的形式，但实际上有人有密码，有时候也会出现各种库被动。所以这里我就想着能不能实现深度学习库的容器化。而且，我觉得一些提供深度学习服务的厂商，应该也是这种部署方式把，毕竟这种比较方便。那...

2020-07-02 10:33:12 2130

原创 Pycharm的设置过程

在设置的编辑器部分，按照需求设置模板！

2025-08-02 17:42:47 220

原创 VSCode安装与环境配置（Mac环境）

大概是非常久之前了，装了VSCode，估计都得21的时候了，电脑上也没更新过。当时安装也直接装上就完事了。这次把版本更新一下，同时记录一下这个安装过程。

2025-04-19 21:04:48 2069

原创 LazyVim的安装与使用

平时编码都是使用VScode来构建项目，操作流程也比较简单，就是通过SSH插件在服务器上开发；其实我最开始，特别是前几年写程序的时候，都是利用vim来进行编辑，也基本上形成了一些操作习惯。当然，跟高手还是差的有点远，那时候还经常折腾插件和环境啥的。后来就彻底投入了VScode的怀抱，装完扩展就直接开干了。所以，其实我平时使用这个东西也没什么不好的。但是之前也是看到了Neovim这个编辑器，这个其实应该也出现比较早了。最近也是决定，要不尝试一下使用这个编辑器来进行项目开发。

2025-04-13 22:38:34 2072

原创 xdp发包程序问题排查

本次实验过程中，需要使用ebpf的xdp执行网络数据包的操作，需要在协议栈正式处理数据包之前，对数据包进行处理，然后判断是继续向上发送数据包，还是丢弃等操作。但是在开发这部分程序的过程中，遇到了问题却比较难排查。本质上，是我对这部分的开发还不够熟练，毕竟也就是简单看了看资料，然后就直接在网上扒代码使用了。

2025-03-12 21:05:14 563

原创 KVM设置端口转发

在ubuntu下进行虚拟机开发环境设置，希望外网也能够进行访问，一开始希望通过桥接的方式来实现，但是发现有些不适配；所以最后使用了 NAT转发的形式。一开始看的文章[1]，在设置路由转发之后但是经过设置之后，发现每次都是提示，unknown ‘–dport’，经过查询时因为iptables的版本问题。虽然按照有些文章的说法，选择了legacy版本，但实际并没有解决这个问题。在文章[2]中，直接使用了命令，所以把上面的命令改为这个之后，就好使了。

2025-02-17 21:49:12 521

原创 ubuntu系统下KVM设置桥接网络（失败）

因实验需求，需要设置KVM下的虚拟机采用桥接模式进行通信，这种方式将使虚拟机与主机类似使用同一网段的IP。实际上，为了实现这个功能，我已经在自己mac上VMware使用过，虚拟机获得了自己独立的IP。但是问题就处在，我在一台小主机上进行这个实验的时候，KVM并不好使。

2025-02-16 22:13:51 837

原创设置libvirtd支持远程TCP连接

此前在部署KVM的时候，直接利用了默认设置，在本机上是完全能够正常使用的。但在一些需要远程访问的时候，在网上搜索相关的教程却一直无法联通。一直报错无法启动。

2025-02-15 21:21:46 1311

原创 Syncthing在ubuntu下的安装使用

以前安装这个软件的时候，是在windows和mac上，都是图形化的安装方式，但是ubuntu不太一样，需要增加源，然后执行命令。安装的系统版本是2004。参考链接1，主要命令包含下面几个部分：第一步：（这个在我机器上并没有执行）执行上述命令之后便安装成功。第四步，启动syncthing。上面的部分中，username部分需要替换为自己的用户名。在默认情况下，它仅仅配置了127.0.0.1作为监听地址，所以无法从外部进行配置。这里需要去修改配置文件。可以通过命令获取配置文件路径。

2025-01-18 18:59:48 1073

原创打包python脚本（flask、jinja2）为exe文件

在我很早时候学习python的时候，就利用过某个工具将其打包为exe文件，然后在没有python环境的机器上运行，这样可以减少安装python环境和各种库的过程。最近在开发一个在虚拟机上运行的程序的时候就遇到了打包一些环境的问题，主要是由于flask这个应用的问题。

2024-08-03 21:10:17 873

原创 python多线程管理

20240728。

2024-07-28 17:18:14 476

原创 BurpSuite专业版mac环境配置

2024年06月23日。

2024-06-23 17:55:52 2464 1

原创 Docker多种场景下设置代理

20240623 -公司内网环境下需要对Docker进行代理设置；此时需要对拉取镜像的时候的命令设置代理；例如平时经常使用的wget设置代理一样。但对docker进行设置，并不能简单的直接export。文章[1]指出，拉取镜像的时候实际执行的是dockerd。所以需要对服务进行配置。但他是直接在中创建新的docker服务；不太确定是不是创建了新的之后也能覆盖原来的配置，可能是配置优先级把。但我这里是找到了之前的docker配置文件进行了修改：现有的服务配置文件在，找到docker。

2024-06-23 17:30:20 680

原创大模型本地部署相关内容

20240607 -

2024-06-07 10:40:44 327

原创 SIP通话分析

20240603 -

2024-06-03 22:02:09 797

原创 python过滤数组中的空字符串

20240603 -

2024-06-03 21:08:42 618

原创 python字符函数性能对比

20240603 -

2024-06-03 20:59:23 388

原创 Supervisor答疑

supervisor可以管理多个进程，安装也比较简单，可以使用apt或者是pip。推荐使用apt安装。

2024-04-23 16:58:41 481

原创 CRF条件随机场学习记录

那么结合发射概率和转移概率这些概念，以及CRF所做的假设，或者说其模型公式中的相关限制，依然利用词性标注这个问题来解释：每个单词的词性，他不仅仅和当前的单词有关，他还和前一个单词的词性有关。注意，他是和上一个单词的词性有关。所以建模的时候要干的事情到底是什么？也就是同时考虑当前单词的属性，同时也要考虑上一个标注结果从而输出一个序列解决。相应的，特征函数的写法也就是fXili−1lifXili−1liiii指代当前处理单词的位置，lll指标记结果。

2024-01-30 18:23:45 1321