朴素贝叶斯色情类网站内容识别

    随着网络/信息安全攻防的不断升级,传统的安全检测方法已经不能够满足新的安全威胁,大数据以及机器学习的方法越来越多的被应用到安全领域,本文研究了一种将贝叶斯算法应用到恶意内容识别的方法,不属于新方法,仅做实践验证.

    首先确定识别的恶意内容为-色情类,方法最终可推广到博彩类,钓鱼网站类等等.为了提取色情类网站内容通用关键词,需要编写网站爬虫工具,爬取敏感关键字.为了对付动态网页内容以及js代码,这里需要借助PyQt QtWebKit模块的力量.使用该模块获取到网页内容后需要使用正则的方式过滤掉html便签等内容,正则如下:

'//<!\[CDATA\[[^>]*//\]\]>'

'<\s*script[^>]*>[^<]*<\s*/\s*script\s*>'

'<\s*style[^>]*>[^<]*<\s*/\s*style\s*>'
'<br\s*?/?>'
'</?\w+[^>]*>'

'<!--[^>]*-->'

过滤后的内容为待提取的字符串.此处需要应用到英文单词分词的内容,需要去掉冠词如 a the 等单词,避免在提取到的敏感词中包含该类单词.并且需要将英文单词的ing 形式,ed等形式做转换,以便将同一个单词的不同形式合并为一个单词后计数.使用python的nltk库可以轻松搞定上述事情.样例代码如下:

sr = stopwords.words('english')

for token in tokens:
    if token.strip()  not in sr:
    token = porter.stem(token)
freq = nltk.FreqDist(clean_tokens)

standard_freq_vector

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值