网站敏感信息扫描工具

真爱浮现

已于 2023-07-14 19:44:01 修改

阅读量372

点赞数

文章标签： python web安全

于 2023-07-14 19:42:48 首次发布

本文链接：https://blog.csdn.net/a635648771/article/details/131730317

版权

网站敏感信息扫描工具，可以检查前端代码中是否包含了内网ip地址、邮箱等敏感信息。

脚本使用 Selenium 和 BeautifulSoup 对一个特定网站进行了网络爬虫操作，从而获取网站的 JavaScript 文件，并在其中寻找可能的敏感信息。脚本的操作步骤如下：

设置 Selenium：这个脚本使用了 Firefox 浏览器和 GeckoDriver 作为 Selenium 的驱动。GeckoDriver 是一个代理，它可以在 W3C WebDriver-compatible 浏览器（如 Firefox）之间转发命令。脚本首先指定了 Firefox 浏览器和 GeckoDriver 的路径。
获取动态网页源代码：脚本使用 Selenium 打开了一个指定的 URL，然后获取了动态生成的 HTML 源代码。因为这个网页可能使用 JavaScript 动态生成内容，所以需要使用 Selenium 来获取完整的网页源代码。
解析 HTML：脚本使用 BeautifulSoup 对获取到的 HTML 源代码进行了解析，找到了所有的 <script> 标签，这些标签可能链接到外部的 JavaScript 文件。
获取 JavaScript 文件：脚本提取了所有 <script> 标签的 src 属性，得到了所有 JavaScript 文件的 URL。对于相对 URL，脚本使用了 urllib.parse.urljoin 方法将它们转化为绝对 URL。
查找敏感信息：脚本下载了所有的 JavaScript 文件，并在其中寻找匹配预定义正则表达式的文本。这些正则表达式用于匹配可能的敏感信息，例如 IP 地址和电子邮件地址。

这个脚本的主要目标是在 JavaScript 文件中寻找敏感信息。请注意，这种方法可能会引发一些法律和道德问题，因为它可能会获取到不应该被公开的信息。在使用这个脚本之前，你应该确保你有权访问和分析你想要爬取的网站。

关注