自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

围城

本人博客于2020年7月28日自https://www.jianshu.com/u/18d537fe97ee搬迁到CSDN

  • 博客(518)
  • 收藏
  • 关注

原创 深度学习实验结果可复现所需设置 - 随机数等内容设置

20210408 -0. 引言最近在进行深度学习相关的实验,但是发现虽然数据每次都一样,最后的实验效果却不是很一样(并非仅仅测试准确率)。在实验过程中,发现是随机数设置的问题。但是已经设置了一些,后来发现其实远远不仅仅是这些,还有一些其他的因素。本人实验环境如下:python == 3.6.9Keras == 2.4.3tensorflow-gpu == 2.3.11. 相关搜索1.1 个人博客在文章[1]中,提供了使用keras时应该进行的相关代码结构,在使用Keras时,主要要进行的

2021-04-08 16:14:56 1509 6

原创 半监督学习简单综述(标签化过程)

20210117 -0. 引言(本篇文章算是自己阅读《An overview of proxy-label approaches for semi-supervised learning》过程中的记录,将其中的观点记录下来;其中的内容,可能并非原文中的内容,而是自己的思考;读者如果有兴趣,最好是阅读原文,更好体会作者的意思)无监督的相对于有监督的方法来说,准确率不尽人意,甚至于在某些场景下,可能会非常低。所以,标签的存在,导致这两种方法可能差别特别大。而实际上,很多问题的却都是无监督的,因为数据采集起

2021-01-19 10:19:29 2192

原创 Centos8安装英伟达显卡驱动并通过docker部署深度学习环境

20201107 -0. 引言之前的时候,在实验室的深度学习服务器上安装深度学习的环境,部署的文章在《Docker部署容器使用GPU并搭建jupyter环境》,当时很多东西都不是很懂,但是基本上匹配上了版本就没什么问题。但是因为一些原因,底层的驱动被人搞崩了,导致很多命令直接失效了,完全就是崩溃的效果。所以只能选择重装。本次重装,操作系统选取centos8,物理机上还是原来的三块Tesla p100,显卡驱动升级为450,暂时没有必要使用更高版本。本次同样采用docker的部署形式,仅仅需要在底层宿主

2020-11-07 19:50:07 4642 1

原创 一类学习(OCSVM)

20201102 -0. 引言我记得我第一次接触一类学习的时候,是在一本讲解异常流量的书上。大概18年的时候,当时有一个需求,就是所处的场景下,只能拥有一类数据,而其他类的数据,要不获取不到,要不获取了也不具备什么代表性,总体上就是这么一个场景。由此接触到了一类学习,而一类学习中,比较著名的就是基于SVM的解决方法,关于SVM的讲解,可以看博客中另外一篇文章《支持向量机SVM的学习》,那么本篇文章就来具体讲讲一类SVM是一个什么套路。本篇文章主要参考了两篇国外的博客来进行学习,分别是数学原理角度和代码

2020-11-02 21:55:06 10026 5

原创 《异常点检测》 - 第十章阅读记录 - 离散序列的异常点检测

20201006 -本文主要作为《异常点检测》的第十章的内容记录,文章按照顺序的方式来进行记录,想到什么记录什么,暂时可能没有条例。1. 基础概念记录1.1 离散数据的定义离散数据与连续数据有所不同,离散数据在实际中主要有两种。基于时间的离散数据,例如用户操作序列,这种在时间上有一个递进的关系基于位置的离散数据,例如生物数据,这种在位置上有所区分两种数据的主要区别就是在于他们不同位置的数据主要是按照是什么区分,是时间,还是位置。但本质上都是带有次序的字符序列。1.2 离散数据的一个难点

2020-10-06 22:26:53 1081

原创 高并发HTTP请求客户端 - python语言编写

20200902 -0. 引言之前的时候接触过高并发相关的内容,当时接触了类似epool这种编程模型,或者更高级的libev这种时间编程;但是这些都是面向服务端的内容,类似C10K这种经典问题。而对于客户端来说,虽然有很多不同语言或者不同类型的压测工具,但很少有介绍自己来编写这部分内容的。通过百度搜索也可以看到相应的结果。也可能是搜索的关键词不对,反正从百度的搜索结果来看,基本上没有什么有效的结果。但是,直接在谷歌上搜索,是可以找到相应的博文的。所以,本篇文章从搜索得到的结果来入手,学习如何满足这部

2020-09-03 21:17:39 2329 4

原创 GAN的编写 - tensorflow形式(tensorflow与GAN同学习,重点分析训练过程)

20200901 -0. 引言之前的时候对keras框架编写的GAN网络进行了介绍《GAN的学习 - 训练过程(冻结判别器)》,但是发现去查看源代码的时候,经常有使用tensorflow框架编写的代码,所以寻思着把tensorflow框架也学一学,但是发现很多内容与keras是不一样的,例如可以自己定位网络参数,训练过程也不仅仅是fit那么简单;在涉及GAN时,更不需要利用trainable这种属性来实现判别器的冻结。本篇文章学习一下利用tensorflow来进行GAN的编写。1. GAN的代码编写

2020-09-02 15:41:05 2154 2

原创 GAN的学习 - 训练过程(冻结判别器)

20200823 -0. 引言在前一篇文章《GAN的学习》中简单介绍了构造GAN的过程,包括如何构造生成器和判别器,如何训练GAN等,但是其中存在一个问题,就是在训练过程中怎么保证判别器不更新权值。下面针对这部分进行具体的描述。1. 整体的流程...

2020-08-23 09:52:55 12502

原创 GAN的学习 - 基础知识了解

20200818 -引言最近看到了一些论文,是GAN在密码生成(PassGAN)、DGA检测(DeepDGA)这些论文,所以希望深入了解一下GAN的内容。之前的时候,只是直到GAN是什么东西,通过训练两个神经网络,然后相互促进来实现检测的目标,不过没有深入了解过。这里根据刚刚阅读的一篇文章[1]来记录下学习的内容。大部分内容是文章[1]的原始内容,加上自己的理解。GAN的结构不管是什么网站,只要一介绍GAN就会告诉你:**GAN由两个部分组成,一个部分是生成器,一个部分是判别器。**那么具体,他们

2020-08-19 08:45:05 2415

原创 LSTM生成文本(字符级别)

20200817 -引言在网上看到过一些利用深度学习来生成文本的文章,不管生成宋词也好,生成小说也好,各种各样,都是利用深度学习的模型来生成新的东西。之前的时候,我也一直觉得,他们这种生成方式,应该就是记忆性的东西,他并没有真正的从语义的角度上理解这个文章。当然,我自己也是才疏学浅,本身就不是专门搞这种东西的人。本篇文章中,记录一下我在网上看到的一篇利用LSTM生成文本的文章。需要注意的几个点是1)训练过程中,输入的是什么2)根据输出,预测的又是什么3)最后输出的内容是否可读,又是否有意义,是否

2020-08-17 21:09:38 1521

原创 大规模数据的PCA降维

20200810 -0. 引言最近在做的文本可视化的内容,文本处理的方法是利用sklearn的CountVer+Tf-idf,这样处理数据之后,一方面数据的维度比较高,另一方面呢,本身这部分数据量也比较大。如果直接使用sklearn的pca进行降维,会很慢,而且pca也没有n_jobs来支持多线程工作。不过,我看到spark中已经支持的pca了,所以希望通过spark来实现这部分内容。1. spark的PCA算法1.1 官方使用示例>>> from pyspark.ml.lina

2020-08-10 16:41:52 1912

原创 charactor级别处理字符串及2vec

20200810 -引言本篇文章来记录一些自然语言中处理字符或者字符串的一些方法。(本人非专业人士,主要就是从网上顺着思路来弄一些东西,参考时请结合自己的实际情况)gram处理在一些其他的博客中,大多数都是针对句子或者文章进行分析,其分析的单位是一个单词,这也是word2vec的主要工作。但是,我这里的一个需求是,对DGA域名进行分析,这里面没有单词的概念。这里记录几个关于这部分内容的处理方式。也就是说,我处理的应该是字符级别的n-gram内容。定义要处理的内容是字符串的数组,每个元素都是"goo

2020-08-10 10:40:19 1117

原创 DGA - 研究内容整理

20200809 -引言DGA算法是一种生成域名的算法:以时间或者一些特定字符串作为种子,然后利用一定的算法(例如加密算法),来生成随机域名的方式。恶意软件的制作者通过这种方式来迷惑安全工作者,传统的恶意软件利用硬编码的方式将CC域名保存在程序中,安全工作者可以对这部分域名进行封堵实现截断通信的过程。在DGA算法的帮助下,恶意程序会发出大量DNS请求(包含DGA生成的域名),而制作者利用同样的算法和同样的种子生成同样的列表,从中挑选任意个在DNS厂商进行注册,以此躲避封堵。而针对DGA的研究,可以有

2020-08-09 16:14:06 1863

原创 spark进行大数据量的爆破计算任务(分布式)

20200806 -1. 引言在编程过程中,遇到这样一个问题,给定一个范围,需要通过对这个范围的内容数值进行运算来返回结果。说白了,就是进行爆破。但是这个数据量太大了,0-0xffffffff,可以想象这个数据量有多大。一开始的时候我在想使用python的多线程/多进程来完成这个工作,但是我记得python有一个全局锁,并不是真正意义上的多线程(这部分知识需要回顾一下)。所以,我就考虑使用spark或者hadoop来进行这部分运算来实现。2. spark的分段式计算2.1 问题描述平时的时候,使用

2020-08-06 16:55:29 1470 1

原创 Mirai环境搭建

20200805 -引言关于Mirai的环境搭建,我记得能搜到很多结果。不过我当时并没有想要启动mirai的所有功能。毕竟其实他的代码也有缺陷,现在想扫出来结果也有点难了。后面可能还是需要这些功能来辅助扫描结果,其他功能还是要开启。这里先记录一个别人的搭建步骤,后面再来记录我自己的。[1]他人环境搭建在这个环境的部署过程中,需要下载很多东西,包括各种乱七八糟的东西,还有交叉编译的环境,为了获得CNC的服务器,还要有go的启动环境。我个人觉得,还是弄一个docker的环境更好。参考文章[1] Mi

2020-08-05 14:15:03 3382

原创 Spark机器学习实例

2020/07/09 -引言《Learning Spark》过程中只是简单介绍了mllib中的东西,没有一个完整的实践过程,暂时还没有去找有没有专门做这种的书,好像我看《spark in action》是有这部分内容,后续在看。本篇文章就利用这个鸢尾花的数据集来简单说明一下spark机器学习的过程,只是简单打下一个轮廓,然后记录使用过程中遇到的问题以及解决方案。在本文中,主要使用新版面向Da...

2020-07-09 09:09:48 13308 2

原创 Docker部署容器使用GPU并搭建jupyter环境

2020/07/02 -引言实验室的深度学习服务器的环境,因为一直是公用的,各种库总是被人搞得乱七八糟;因为机器上很多个版本的python,我也不知道具体该怎么弄。现在的情况,说是给按照给学生分配jupyter的形式,但实际上有人有密码,有时候也会出现各种库被动。所以这里我就想着能不能实现深度学习库的容器化。而且,我觉得一些提供深度学习服务的厂商,应该也是这种部署方式把,毕竟这种比较方便。那...

2020-07-02 10:33:12 1857

原创 打包python脚本(flask、jinja2)为exe文件

在我很早时候学习python的时候,就利用过某个工具将其打包为exe文件,然后在没有python环境的机器上运行,这样可以减少安装python环境和各种库的过程。最近在开发一个在虚拟机上运行的程序的时候就遇到了打包一些环境的问题,主要是由于flask这个应用的问题。

2024-08-03 21:10:17 518

原创 python多线程管理

20240728。

2024-07-28 17:18:14 335

原创 BurpSuite专业版mac环境配置

2024年06月23日。

2024-06-23 17:55:52 525

原创 Docker多种场景下设置代理

20240623 -公司内网环境下需要对Docker进行代理设置;此时需要对拉取镜像的时候的命令设置代理;例如平时经常使用的wget设置代理一样。但对docker进行设置,并不能简单的直接export。文章[1]指出,拉取镜像的时候实际执行的是dockerd。所以需要对服务进行配置。但他是直接在中创建新的docker服务;不太确定是不是创建了新的之后也能覆盖原来的配置,可能是配置优先级把。但我这里是找到了之前的docker配置文件进行了修改:现有的服务配置文件在,找到docker。

2024-06-23 17:30:20 509

原创 大模型本地部署相关内容

20240607 -

2024-06-07 10:40:44 230

原创 SIP通话分析

20240603 -

2024-06-03 22:02:09 562

原创 python过滤数组中的空字符串

20240603 -

2024-06-03 21:08:42 275

原创 python字符函数性能对比

20240603 -

2024-06-03 20:59:23 230

原创 Supervisor答疑

supervisor可以管理多个进程,安装也比较简单,可以使用apt或者是pip。推荐使用apt安装。

2024-04-23 16:58:41 369

原创 CRF条件随机场学习记录

那么结合发射概率和转移概率这些概念,以及CRF所做的假设,或者说其模型公式中的相关限制,依然利用词性标注这个问题来解释:每个单词的词性,他不仅仅和当前的单词有关,他还和前一个单词的词性有关。注意,他是和上一个单词的词性有关。所以建模的时候要干的事情到底是什么?也就是同时考虑当前单词的属性,同时也要考虑上一个标注结果从而输出一个序列解决。相应的,特征函数的写法也就是fXili−1lifXili−1​li​iii指代当前处理单词的位置,lll指标记结果。

2024-01-30 18:23:45 1079

原创 docker安装overleaf并升级texlive

20230321。

2023-03-21 11:23:58 1383 1

原创 终端配色-Docker容器终端

20230309 -

2023-03-09 19:04:07 1344

原创 VSCode问题记录

20230304 -

2023-03-04 17:12:10 651

原创 爬虫碎碎念

20230304 -(非专业人士,简单记录自己的需求和思考)

2023-03-04 11:14:16 797

原创 逃避浏览器JS检测打开开发者工具

虽然最后弄到了我想要的结果,但是实际上,还是没有从本质的反扒策略上搞清楚到底咋回事。就比如说,我想看看他到底怎么检测的,还是得从源码的角度来弄。不过我看了看,这些视频网站最后断点位置的代码都比较相似,估计都是使用了类似的库,所以后续可以看看到底是哪个库,然后弄明白他是利用了什么检测方式。

2023-03-04 10:59:36 1946

原创 Torch同时训练多个模型

20230302。

2023-03-02 09:55:26 1464

原创 Torch单独层赋值

20230227 -

2023-02-27 20:12:57 543

原创 Keras默认权值初始化方式

20230117 -在最初使用Keras进行神经网络编程的时候,除了设置神经元个数,层数,或者激活函数之后,基本上对神经网络内部就不怎么管了,所以最后很多参数都是默认的。这种情况一般遇到的数据集问题,都能轻易解决。一般不是层数非常深的神经网络,偶尔也遇到过梯度爆炸和消失的问题。但最近遇到一个数据集,默认的情况下效果也还行,但希望更进一步。就希望通过权值初始化的角度来进行改进。

2023-02-17 14:56:04 728

原创 分布式机器学习

20221216 -(本文为在进行大量的实验过程中的一些思考,主要关注利用分布式平台进行实验的相关内容,内容暂时不加整理,想到什么写什么)

2022-12-16 17:08:15 852

原创 keras框架下的VAE的代码撰写

20221117 -

2022-11-17 15:17:40 849

原创 python重新加载某方法

20221014 -

2022-10-14 15:58:51 436

原创 提升KNN的运行效率

20221005 -

2022-10-05 11:11:39 1421

原创 一维数据聚类

20220924 -在以往的学习中,通常聚类行为都是应用于高维数据,或者利用2维数据,最为实验性验证过程。但是最近遇到了一项任务,对某数据处理的结果进行处理,处理完之后,数据只有一维,如果数据内容比较简单,那么用直方图绘制之后,可以发现只有两个簇,而且距离也比较远。当然,这种情况比较少。那么这里其实引发一个问题,怎么来划分开两个类别,这也是我思考的问题。一开始的时候,我也不太理解,就想着利用聚类的方法。那么首先想到的就是kmeans这种方式咯。

2022-09-24 11:07:33 2849

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除