钓鱼网站url的识别

昨天偶遇个钓鱼网站的数据集,提供了很多url的特征,就好奇这东西有多难识别,于是简单地做了一下, 发现随机森林就能跑到93%。
其中最重要的特征是网站有没有https头,18个特征里能占0.3。

给新手们附上链接和实验过程:
1.下载数据集(需要注册)
2.因为test.csv没标签, 所以从train里抽一点出来,可以37开可以55开。
3.数据里有缺失值,因为后面要用lasso做特征选择,所以把数据中的0改成-1,把NaN改成0.
4.删了几个占比低的特征后,用随机森林跑出了0.94的分数。
5.但因为我把NaN改成了0,而NaN是无意义的, 0却是介于-1到1之间,在计算时有了分界的意义,所以随机森林只能作为参考。
6.最后用keras搭的三层线性模型,只有最后一层用了sigmoid,得到90.6%的分数。

总结:没啥总结的,数据太少特征很强,很难有普适性,实际中只靠url识别是很不靠谱的。我了解到现在会生成网页的图片,并比对结构代码,因为钓鱼网站虽然能模仿网页,但代码肯定不一致。有些网站会加载一堆奇怪的插件,有些会有很多弹窗,有些会写死逻辑让你跳不出去,这些特征都得懂前端的人来配合获取了。

  • 2
    点赞
  • 6
    收藏
    觉得还不错? 一键收藏
  • 3
    评论
评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值