深度学习/自然语言处理
文章平均质量分 66
梦想闹钟
这个作者很懒,什么都没留下…
展开
-
pytorch自定义Dataset
pytorch自定义Dataset介绍,以及中途遇到的两个坑原创 2022-10-26 18:36:32 · 1949 阅读 · 0 评论 -
tensorflow自定义训练常用方法参数记录
tensorflow自定义训练常用方法参数记录原创 2022-10-18 16:02:09 · 721 阅读 · 0 评论 -
python 使用多进程处理列表数据
python 多进程处理列表数据原创 2022-08-25 11:18:53 · 2590 阅读 · 0 评论 -
使用wireshark进行基础的日志审计
可以通过tcpdump -i 把网络流量打印出来进行审计Wireshark下载地址:https://www.wireshark.org/download.html其中常用的几种过滤字段:ip过滤:ip.src==x.x.x.xip.dst==x.x.x.x端口过滤:http.port==xxtcp.port==xx协议过滤:http,tcp,icmp,udphttp.request.method==POST链接符使用:and,or通用的过滤条件在左上方填写,其中按下ctrl原创 2022-05-23 21:22:01 · 777 阅读 · 0 评论 -
2021年安全类比赛writeup总结
360数字安全竞赛恶意软件家族分类本赛题的主要目标为恶意软件家族分类,赛题数据集包含了来自10个恶意软件家族,10000多个恶意软件的PE文件(No header)和使用IDAPro生成的asm文件。赛题采用多分类对数损失函数logloss对结果进行评价样本存在种类分布不均,大小不一的特点,如其中7,8,9类占的比例较大**第二名解法: https://mp.weixin.qq.com/s/q0ScSZyXFK8XLgMTBU9k5g**特征选择:提取了字节直方图、字节熵直方图、字符串信息等静态转载 2022-02-20 11:41:09 · 1678 阅读 · 0 评论 -
常见的nlp 自然语言处理模型
最近需要处理有关语言的模型,因此整理了一份语言处理相关的方法链接LSA、PLSALanguage sense analyse, potential Language sense analyse潜在语义分析–文本稀疏表示–>文本相似度度量、主题模型https://blog.csdn.net/TiffanyRabbit/article/details/72650606Word2vec(2013)Word2Vec是Google在2013年开源的一款词向量计算工具,它的特点是将所有的词向量化,这样转载 2021-11-09 09:44:41 · 1668 阅读 · 0 评论 -
字节跳动 安全ai挑战赛初赛参赛总结
初赛赛题https://security.bytedance.com/fe/ai-challenge#/project?id=1&active=1字段:我主要提取的特征就是(userid,product_id)(userid,product_1st_category)这些元组出现的次数,加上产品id总共出现的次数和userid总共出现的次数,但是对于地址这块我没想到好的特征提取方法,然后模型用的是lgboost,已经加了class weight,最终正确率是80%,按照官方积分的算法尝试的最原创 2021-11-01 11:25:45 · 355 阅读 · 0 评论 -
Data fountain 基于人工智能的恶意软件家族分类 参赛总结
我自己单独做的loss是在0.78左右,学长的方法loss能达到0.207左右给的数据,是一个恶意软件去掉pe头的asm文件和对应的pe文件。此外,样本有分布不均的特点,因此在训练模型的时候需要注意加上对应的权重我自己使用的方法是:提取两部分特征,一部分是文件的区间熵+文件大小+2进制读取的时候0-255字节分别出现的数量+常用opcode出现的次数+字符串出现的数量,字符串最长长度,平均长度,这部分特征是长度2500的一维向量第二部分是文件内容取前30万行,将其中以6个空格开头的行收集起来,筛去原创 2021-11-01 11:05:04 · 913 阅读 · 2 评论 -
Datacon21 参赛总结
这次参加了软件供应链以及域名两个方向,都是第10名本篇主要记录一下域名方向的做题记录域名方向主要分两个题目,第一个题目是给你一堆黑产域名,需要判断域名所属的黑产家族,以及涉黄涉赌的情况。第一题主要考验的是爬虫的构造,以及信息的获取方式。我暂时发现了可以通过以下几种方式来识别黑产网页:Js特征:在静态请求网页的时候,能在网页源码里看到形如下图的百度的站点统计代码,通过正则表达式筛选出js?后面的长段字符串,相同的网页的这种字符串也是相同的,通过这种方式识别恶意网页家族速度较快,效果很好。图片原创 2021-11-01 10:39:45 · 502 阅读 · 0 评论 -
使用xgboost以及lgbm
xgboost:这里列举的代码,是一个对10分类结果进行预测,max_depth参数控制树的深度,objective控制的是训练的目标,multi:softprob即多分类预测概率,num_class为需要分类的类数。这里输入的x的维度为n40000,输入的y的维度为n1,即y的每一行都是一个数字,0-9,代表所属的10分类eval_metric这个参数指定的是训练的时候loss的类别。获得结果后,可以用predict方法获得分类的结果(1维标签,0-9),用predict_proba可以获得预测分类原创 2021-09-24 08:38:48 · 1678 阅读 · 0 评论 -
tensorflow 拼接不同的神经网络结构
最近尝试了将两个网络组合,下面的代码是将cnn和mlp网络进行组合的示例,输入CNN网络的特征维度是n40000,将其转化为n(200200)的维度输入到cnn网络中,卷积过后再和维度为n2500的特征结合,输入到mlp网络里去,最终输出是对应10分类的概率,关键是使用 layers.concatenate将不同网络的输出拼接起来,作为新网络的输入。同时,使用多个网络和多个输入时也需要提前声明多个Input层,以及model里的输入格式models.Model(inputs=[input1, input2]原创 2021-09-23 17:44:02 · 1987 阅读 · 0 评论 -
论文阅读笔记-DeepReflect: Discovering Malicious Functionality through Binary Reconstruction
USENIXDeepReflect: Discovering Malicious Functionality through Binary Reconstruction https://www.usenix.org/system/files/sec21fall-downing.pdf源代码:https://github.com/evandowning/deepreflect第一章1.作者提出如果恶意软件分析工具能够识别恶意软件中的恶意功能,并且标记这些功能,那么分析人员的工作效率会大大提高2.原创 2021-07-28 17:50:03 · 459 阅读 · 1 评论 -
论文阅读笔记-Measuring and Modeling the Label Dynamics of Online Anti-Malware Engines
USENIXMeasuring and Modeling the Label Dynamics of Online Anti-Malware Engineshttps://www.usenix.org/system/files/sec20-zhu.pdf这篇文章主要对VT的识别结果进行了分析,就实验结果来说,只选取一部分识别引擎的结果作为判别标准会更稳定,且需要隔一段时间再次提交文件观察识别结果,如果识别结果在短期内没有出现频繁翻转,则可以将其作为判定标准第一章1.作者指出现阶段常用的VirusT原创 2021-07-05 21:17:52 · 238 阅读 · 1 评论 -
论文阅读笔记-Does Every Second Count? Time-based Evolution of Malware Behavior in Sandboxes
NDSSDoes Every Second Count? Time-based Evolution of Malware Behavior in Sandboxeshttps://www.ndss-symposium.org/wp-content/uploads/ndss2021_4C-5_24475_paper.pdf这篇文章主要是说使用沙箱对恶意软件进行行为分析的时候,时间阈值设置两分钟就可以了,且恶意软件运行的时间要么很短要么很长,其中有一部分是因为主机的版本设置啥的不符合恶意软件运行要求导致的原创 2021-07-05 21:15:20 · 199 阅读 · 1 评论 -
python使用注意事项
这里主要记录自己用python遇到的一些坑,或者注意点1.小数运算精度问题在python里0.1+0.2!=0.3这个问题其实js中也有,归根到底是精度和运算转换的问题,解决方法是使用round函数或者decimal函数2.导入自定义的python文件使用pycharm时偶尔会遇到导入文件找不到的情况,这时候通过files-settings-project structure里可以添加依赖的资源项...原创 2021-05-30 17:22:34 · 143 阅读 · 0 评论 -
论文阅读笔记-Towards Paving the Way for Large-Scale Windows Malware Analysis
CCSTowards Pavingthe Way for Large-Scale Windows Malware Analysis:Generic Binary Unpacking with Orders-of-Magnitude PerformanceBoosthttps://rbonichon.github.io/asi36/papers/p395-cheng.pdf摘要部分1.文中指出打包工具会混淆API调用的标准用法,恶意软件使用导入地址表IAT来充当动态链接的API查找表,而IAT在原创 2021-05-30 16:56:54 · 213 阅读 · 1 评论 -
将秘钥嵌入图片进行加文件加解密
这个是当时参加密码学竞赛的一个作品,主要想法是将rsa的公钥和私钥藏进图片里面,程序主要代码链接:https://pan.baidu.com/s/1AIDpIAtQqMRfg59lWFFQiQ提取码:lwv4主要思路如下,鉴于图片有3个信道,每个信道的值是0-255,其实可以把信息嵌入其中。先说下解码方式,对于图片,以33的卷积方式读取图片的其中一个信道,对33内9个数值进行取余64后再取最大值的操作,然后将这个“卷积,取余,取最大值”得到的数值映射到base64编码上去,最终从图片提取一串ba原创 2021-05-14 21:10:22 · 696 阅读 · 0 评论 -
使用深度学习识别webshell
在做毕设的时候选的这个题目,实际在完成的过程中也有了一些收获,在这里记录下首先是样本,webshell黑样本主要来源于github上的webshell收集项目,白样本来自于github上的开源框架。我也尝试过asp,jsp语言的恶意脚本识别,其实识别效果也很不错,能有95%左右,但是asp,jsp这些语言的恶意脚本数量太少,只有大约1000个左右,说服力不是很强。php样本的数量和质量都要高一些,最终我所搜集到了5000个webshell,以及10000个php白样本样本链接:https://pan.b原创 2021-05-14 18:10:57 · 1002 阅读 · 0 评论 -
论文编写常用网站
这里记录一些论文编写时候有用的网站1.mlvisual网址:https://github.com/dair-ai/ml-visuals这个是专门用来进行神经网络作图的,是ppt的格式,里面有不少好看的素材,唯一的缺点是需要翻墙以防万一之后找不到我传到网盘了链接:https://pan.baidu.com/s/1J48avpCDLBK8op5G2V_UPA提取码:b41y2.process onprocesson.com这个是一个专门做流程图的网站,免费,实际做出来东西效果还行3.图标原创 2021-05-14 11:10:12 · 1050 阅读 · 1 评论 -
30天吃掉tensorflow2 1_4学习笔记
1-4,时间序列数据建模流程范例一,准备数据本文的数据集取自tushare,数据集在本项目的 data目录下。数据长这样:代码:import numpy as npimport pandas as pdimport matplotlib.pyplot as pltimport tensorflow as tffrom tensorflow.keras import models,layers,losses,metrics,callbacks%matplotlib原创 2021-01-10 19:17:02 · 237 阅读 · 0 评论 -
30天吃掉tensorflow2 1_3学习笔记
1-3,文本数据建模流程范例一,准备数据imdb数据集的目标是根据电影评论的文本内容预测评论的情感标签。训练集有20000条电影评论文本,测试集有5000条电影评论文本,其中正面评论和负面评论都各占一半。文本数据预处理较为繁琐,包括中文切词(本示例不涉及),构建词典,编码转换,序列填充,构建数据管道等等。在tensorflow中完成文本数据预处理的常用方案有两种,第一种是利用tf.keras.preprocessing中的Tokenizer词典构建工具和tf.keras.utils.原创 2021-01-09 21:56:07 · 344 阅读 · 0 评论 -
30天吃掉tensorflow2 1_2学习笔记
1-2,图片数据建模流程范例一,准备数据cifar2数据集为cifar10数据集的子集,只包括前两种类别airplane和automobile。训练集有airplane和automobile图片各5000张,测试集有airplane和automobile图片各1000张。cifar2任务的目标是训练一个模型来对飞机airplane和机动车automobile两种图片进行分类。在tensorflow中准备图片数据的常用方案有两种,第一种是使用tf.keras中的ImageDataGener原创 2021-01-04 20:01:48 · 650 阅读 · 1 评论 -
30天吃掉tensorflow2 1_1学习笔记
这里记录下“30天吃掉tensorflow2”这个github上的教学项目的学习笔记,上面的教程很好,而且还自带数据集等等,代码偶尔有些小瑕疵附上地址https://github.com/lyhue1991/eat_tensorflow2_in_30_days1-1,结构化数据建模流程范例一,准备数据dftrain_raw = pd.read_csv('./data/titanic/train.csv')dftest_raw = pd.read_csv('./data/titanic/t原创 2020-12-25 21:19:15 · 292 阅读 · 0 评论 -
tensorflow2.3 安装所需资源
安装tensorflow2.3的教程很多地方都有,但是我在自己实践的时候遇到了一些问题,比如开源的资源下载速度极慢,版本问题等等cuda_10.1.168_425.25_win10链接:https://pan.baidu.com/s/1V6QQIigYW0Ye2IEFDRL2Fg提取码:vebbVC20151719_redist.x64链接:https://pan.baidu.com/s/1gYUHqtbqGIHvHaEs4LZs5Q提取码:l617cudnn-10....原创 2020-12-25 21:01:40 · 135 阅读 · 1 评论 -
人工智能掼蛋大赛参赛记录
首先感谢主板方,虽然只是拿了个优胜奖,但是也有5000块奖金,吃的住的都很好!!大赛官网:https://www.bagevent.com/event/6808642参赛选手作品代码:http://gameai.njupt.edu.cn/gameaicompetition/guandan_machine_code/index.html因为代码很多而且较复杂,就不放上来了,虽然说是人工智能,但是大家用的都是if策略写的(其实有考虑过增强学习,但是因为时间原因和实现难度还是选择了使用策略来写)说下基原创 2020-12-15 17:53:28 · 1400 阅读 · 5 评论 -
keras.datasets.imdb数字转换单词问题小坑
在进行NLP的学习过程中,我发现keras自带的imdb数据挺好用的,打印了下train_dataset发现都是数字,在数字到单词转换的时候遇到了问题,转换出来的根本就不是正常句子。正确写法应该是indexWord = dict([(value, key) for (key, value) in wordIndex.items()])trainWords = ’ '.join([indexW...原创 2020-08-13 08:49:44 · 599 阅读 · 0 评论