Word2Vec+CNN+tensorflow实现恶意网页链接的检测

最新推荐文章于 2023-10-04 08:38:04 发布

VIP文章 _well_s

最新推荐文章于 2023-10-04 08:38:04 发布

阅读量9.8k

点赞数 2

分类专栏：深度学习文章标签： cnn word2vec tensorflow 恶意网页 URL检测

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/u011987514/article/details/71189491

版权

一、综述

恶意网页链接的检测方案有很多

例如http://fsecurify.com/using-machine-learning-detect-malicious-urls/

该文使用了机器学习逻辑回归算法

但是该算法存在一些问题，一个是用TFIDF方法来获取词频，该方法的缺陷就是只能获取单词在整段文字的词频信息，

没办法获取上下文语境的信息

本文从自然语言的角度解析URL链接，恶意链接与文本恰有一些相似之处，所以尝试了自然语言处理的

方法来检测网页

本文将会简单介绍一些算法

二、算法介绍

1）典型的利用CNN进行文本分类的思路

卷积神经网络用于NLP的检测已经有很多实践以及论文支持，

比如http://www.wildml.com/2015/11/understanding-convolutional-neural-networks-for-nlp/

利用CNN横向连接实现文本情感分析，本博文也是基于该原理，实现恶意网页检测。

第一层进行一层低维词嵌入，把单词句子表示成向量形式，比较常用的词嵌入手段是word2vec,

第二层在词向量上进行卷积操作，可以多次使用不同尺寸的filter, 这样每次划过的单词数量就不同，

可以利用该特性自动抽取到上下文之间的关系特征。

第三层进行max-pooling。

2）重新思考URL检测问题

从文本分类上获得启发，能否借鉴它的这种想法，利用到URL上来？

博主把借鉴了这套网络，把它迁到url上来，对URL结构进行了分析。

这里以一条链接举例说明url的低维嵌入方法，请看

https://q.taobao.com/?spm=a21bo.50862.201859.7.spjPF3

一般url分成三部分：协议//主机

最低0.47元/天解锁文章

关注

2
点赞
踩
42

收藏

觉得还不错? 一键收藏
4
评论
Word2Vec+CNN+tensorflow实现恶意网页链接的检测

一、综述恶意网页链接的检测方案有很多例如http://fsecurify.com/using-machine-learning-detect-malicious-urls/该文使用了机器学习的方法，仅使用逻辑回归就达到了98.5% 的准确率但是该算法存在一些问题，一个是用TFIDF方法来获取词频，该方法的缺陷就是只能获取单词在整段文字的词频信息，没办法联系上下文，从语境中提取文
复制链接

扫一扫

专栏目录

_well_s CSDN认证博客专家 CSDN认证企业博客

码龄11年

13: 原创

32万+: 周排名

221万+: 总排名

8万+: 访问

: 等级

985: 积分

26: 粉丝

35: 获赞

17: 评论

144: 收藏

私信

关注

热门文章

分类专栏

最新评论

Word2Vec+CNN+tensorflow实现恶意网页链接的检测
javagreenfighit: 最后不是有行GitHub的网址嘛，用网页打开下载之后就有数据集。
Word2Vec+CNN+tensorflow实现恶意网页链接的检测
esilhouette: 您好，我也是这个问题，请问您解决了嘛
基于Spark MLlib平台的协同过滤算法---电影推荐系统
hyf1223: 您好，请问有没有数据？？
RNN的简单理解-part2
weixin_49747246: 你好博主。为什么我代码里后面的两个sess下面会有红色波浪线 if 'sess' in globals() and sess: sess.close
Word2Vec+CNN+tensorflow实现恶意网页链接的检测
qq_38033281: 博主，我试用了您的代码，发现eval预测所有的url结果都是0，这是怎么回事呢

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

目录

评论 4

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。