口令数据分析
0x00 数据来源
在某节课上老师给出 300w 某国内知名网站泄露的口令集,以及 60w 某国外知名网站泄露的口令集,要求对其进行数据分析,并生成一个用于暴力破解的弱口令集。以下用数据集A和数据集B分别指代国内网站的口令集和国外的口令集。
0x01 分析流程
1. 口令长度规律分析
确定用户偏好的口令长度有利于生成更常用的口令,这里对数据集 A 和 B 分别统计了使用某种长度口令的人数,并绘制了对比的折线图。
可以看出使用长度为 8 的口令的用户在两个数据集中都是最多的,且所有的口令长度几乎都集中于 6 - 12 区间。
2. 口令结构分析
口令结构即用户组合不同元素的方式。一般组成口令的元素可以分为数字(Digit)、字母(Letter)、特殊字符(Signal) 三种类型。 因此,用D、L、S代表字符类型,用数字代表连续的字符个数,则一个口令可以用如下的形式表示:
woaini777 -> L6D3
为了找出用户最常用的口令结构,对数据集A和B中的所有口令进行处理,转换成如上形式,并统计出出现次数最多的口令结构。