23万条数据集,可以用来区分钓鱼网站!

一、何为钓鱼网站?

在数字化时代,网络安全问题日益严重,其中钓鱼网站是一种常见的网络威胁。钓鱼网站通常会伪装成合法的网站,诱骗用户输入敏感信息,如用户名、密码、银行账户等,从而盗取用户的个人信息和资产。为了保护自己的网络安全,我们需要学会识别钓鱼网站。

钓鱼网站通常具有以下特点:

  1. 域名与正规网站相似,但可能包含拼写错误或特殊字符。
  2. 页面布局和正规网站相似,但可能存在细微差异。
  3. 网站可能要求您提供敏感信息,如用户名、密码、银行账户等。

今天分享来自 UCI机器学习存储库PhiUSIIL Phishing URL Dataset 数据集。

UCI机器学习存储库是由机器学习社区用于机器学习算法实证分析的数据库、领域理论和数据生成器的集合。该存档于1987年由UCI博士生David Aha创建为ftp存档。从那时起,它被世界各地的学生、教育工作者和研究人员广泛使用,作为机器学习数据集的主要来源。许多人值得感谢,因为他们使存储库取得了成功。其中最重要的是数据库和数据生成器的捐助者和创建者。特别感谢还应该感谢存储库的过去图书馆员:David Aha、Patrick Murphy、克里多斯夫Merz、Eamonn Keogh、Cathy Blake、Seth Hettich、David Newman、亚瑟·亚松森、Moher Lichman、Dheeru Dua、Casey Graff。目前的图书馆员是科尔比·诺丁汉、雷切尔·朗·约翰、马克尔·凯利。该网站的当前版本于2023年发布。感谢美国国家科学基金会的资助。

二、数据集介绍

  • PhiUSIIL Phishing URL Dataset 是一份大小为100M左右的csv文件,我们可以用pandas来读取数据。

PhiUSI IL网络钓鱼URL数据集是一个由134,850个合法和100,945个网络钓鱼URL组成的实质性数据集,我们在构建数据集时分析的大部分URL都是最新的URL,特征是从网页和URL的源代码中提取的,Char连续率、URL标题匹配分数、URL Char Prob和TLD合法Prob等特征是从现有特征中派生出来的。
更多数据信息可以访问: http://archive.ics.uci.edu/dataset/967/phiusiil+phishing+url+dataset

引用数据集

  • 如果需要在论文中使用数据集,请这样引用:
Prasad,Arvind and Chandra,Shalini. (2024). PhiUSIIL Phishing URL. UCI Machine Learning Repository. https://doi.org/10.1016/j.cose.2023.103545.
  • BibTeX 这样引用:
@misc{misc_phiusiil_phishing_url_967,
  author       = {Prasad,Arvind and Chandra,Shalini},
  title        = {{PhiUSIIL Phishing URL}},
  year         = {2024},
  howpublished = {UCI Machine Learning Repository},
  note         = {{DOI}: https://doi.org/10.1016/j.cose.2023.103545}
}

数据展示

  • 数据集有235795行,56列。

随机展示5条数据如下:

在这里插入图片描述

字段解释

  • label=0 对应合法URL,label=1 对应网络钓鱼URL
  • 可以忽略列“FILENAME”。

详细字段介绍如下:

在这里插入图片描述

三、数据分析

数据读取

建议使用jupyter notebook,如何使用jupyter notebook 可以看这篇文章

import pandas as pd
df = pd.read_csv("./PhiUSIIL_Phishing_URL_Dataset.csv")
# 随机查看5条数据
df.sample(5)
# 查看数据维度
df.shape
# 查看数据信息
df.info()

使用ucimlrepo读取数据

  • 速度比较慢,建议从官网下载数据集

安装 ucimlrepo 库

pip install ucimlrepo

读取数据

from ucimlrepo import fetch_ucirepo 
  
# fetch dataset 
phiusiil_phishing_url = fetch_ucirepo(id=967) 
  
# data (as pandas dataframes) 
X = phiusiil_phishing_url.data.features 
y = phiusiil_phishing_url.data.targets 
  
# metadata 
print(phiusiil_phishing_url.metadata) 
  
# variable information 
print(phiusiil_phishing_url.variables) 

四、下载地址

http://archive.ics.uci.edu/static/public/967/phiusiil+phishing+url+dataset.zip

  • 22
    点赞
  • 22
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 2
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

帅帅的Python

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值