钓鱼网站url的识别

昨天偶遇个钓鱼网站的数据集,提供了很多url的特征,就好奇这东西有多难识别,于是简单地做了一下, 发现随机森林就能跑到93%。
其中最重要的特征是网站有没有https头,18个特征里能占0.3。

给新手们附上链接和实验过程:
1.下载数据集(需要注册)
2.因为test.csv没标签, 所以从train里抽一点出来,可以37开可以55开。
3.数据里有缺失值,因为后面要用lasso做特征选择,所以把数据中的0改成-1,把NaN改成0.
4.删了几个占比低的特征后,用随机森林跑出了0.94的分数。
5.但因为我把NaN改成了0,而NaN是无意义的, 0却是介于-1到1之间,在计算时有了分界的意义,所以随机森林只能作为参考。
6.最后用keras搭的三层线性模型,只有最后一层用了sigmoid,得到90.6%的分数。

总结:没啥总结的,数据太少特征很强,很难有普适性,实际中只靠url识别是很不靠谱的。我了解到现在会生成网页的图片,并比对结构代码,因为钓鱼网站虽然能模仿网页,但代码肯定不一致。有些网站会加载一堆奇怪的插件,有些会有很多弹窗,有些会写死逻辑让你跳不出去,这些特征都得懂前端的人来配合获取了。

### 钓鱼网站数据集的相关资源 对于研究或开发反钓鱼技术的需求,可以利用公开可用的钓鱼网站数据集来训练模型或测试算法。以下是几个常见的钓鱼网站数据集及其下载方式: #### 1. **PhishTank 数据集** PhishTank 是一个广泛使用的开源项目,提供了一个实时更新的钓鱼网站数据库。该数据集中包含了大量被标记为钓鱼网站URL 列表以及它们的状态信息(例如有效、无效)。可以通过访问其官方网站获取最新的 CSV 文件[^1]。 ```plaintext https://www.phishtank.com/ ``` 此数据集的特点在于社区驱动,用户提交并验证新的钓鱼站点链接,因此具有较高的可信度和时效性。 #### 2. **UNB ISCX Dataset** 由新不伦瑞克大学 (University of New Brunswick) 提供的安全研究中心发布了多个网络安全相关的数据集,其中包括专门针对网络钓鱼行为的研究材料。这些数据不仅限于 URL 地址还包括其他特征向量如 HTML 结构分析等内容[^2]。 要获得完整的 UNB ISCX phishing dataset ,需填写申请表格并通过审核后方可下载完整版文件集合。 #### 3. **Google Safe Browsing Transparency Report API** 虽然这不是传统意义上的静态数据集形式,但是通过调用 Google 安全浏览透明度报告接口也可以收集到大量的潜在恶意网址样本。开发者能够按照一定频率请求最新发现的风险页面列表,并将其作为动态扩展型的数据源加以应用[^3]。 注意,在实际操作过程中应当遵循各平台的服务条款规定,合理合法地使用上述公共资源;同时也要考虑到隐私保护等问题以免触犯法律法规。 ```python import requests def fetch_google_safe_browsing_data(api_key): url = f"https://safebrowsing.googleapis.com/v4/threatMatches:find?key={api_key}" payload = { "client": {"clientId":"yourcompany","clientVersion":"1.0"}, "threatInfo":{"threatTypes":["SOCIAL_ENGINEERING"],"platformTypes":["ANY_PLATFORM"],"threatEntryTypes":["URL"],"threatEntries":[{"url":"http://example.com"}]} } response = requests.post(url, json=payload) return response.json() ``` 以上介绍了几种主流渠道用于获取钓鱼网站相关的信息资料方法论介绍完毕之后我们再来看一些延伸思考方向吧!
评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值