朴素贝叶斯色情类网站内容识别

ckbbird

于 2018-06-05 11:07:08 发布

阅读量2.6w

点赞数

分类专栏：深度学习文章标签：贝叶斯机器学习 sklearn 恶意网站内容信息安全

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/ckbbird/article/details/80577750

版权

随着网络/信息安全攻防的不断升级,传统的安全检测方法已经不能够满足新的安全威胁,大数据以及机器学习的方法越来越多的被应用到安全领域,本文研究了一种将贝叶斯算法应用到恶意内容识别的方法,不属于新方法,仅做实践验证.

首先确定识别的恶意内容为-色情类,方法最终可推广到博彩类,钓鱼网站类等等.为了提取色情类网站内容通用关键词,需要编写网站爬虫工具,爬取敏感关键字.为了对付动态网页内容以及js代码,这里需要借助PyQt QtWebKit模块的力量.使用该模块获取到网页内容后需要使用正则的方式过滤掉html便签等内容,正则如下:

'//<!\[CDATA\[[^>]*//\]\]>'

'<\s*script[^>]*>[^<]*<\s*/\s*script\s*>'

'<\s*style[^>]*>[^<]*<\s*/\s*style\s*>'
'<br\s*?/?>'
'</?\w+[^>]*>'

''

过滤后的内容为待提取的字符串.此处需要应用到英文单词分词的内容,需要去掉冠词如 a the 等单词,避免在提取到的敏感词中包含该类单词.并且需要将英文单词的ing 形式,ed等形式做转换,以便将同一个单词的不同形式合并为一个单词后计数.使用python的nltk库可以轻松搞定上述事情.样例代码如下:

sr = stopwords.words('english')

for token in tokens:
if token.strip() not in sr:
token = porter.stem(token)
freq = nltk.FreqDist(clean_tokens)

standard_freq_vector

最低0.47元/天解锁文章

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。