网络攻防技术——域名信息

最新推荐文章于 2024-08-08 15:43:27 发布

啦啦啦啦啦啦啦噜噜

最新推荐文章于 2024-08-08 15:43:27 发布

阅读量945

点赞数

分类专栏：网络攻防技术文章标签：网络搜索引擎爬虫

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/day0713/article/details/123171318

版权

本文介绍了如何使用Python爬虫扩展Bing的域名收集功能，以支持百度搜索引擎的域名提取。实验要求包括从百度获取真实域名，避免跳转链接，并可选扩展如域名标题等信息。通过分析请求头以规避反爬机制，利用BeautifulSoup解析网页，通过正则表达式抓取子域名。目前代码仅实现了第一页的搜索结果爬取。

摘要由CSDN通过智能技术生成

一、作业题目

本次实验主要考察大家的编程能力及子域名的信息收集方法，在文件夹“Lab1_code”提供了使用 Bing 搜索引擎的域名收集功能。请对该代码进行扩展，使其可支持百度搜索引擎的域名收集功能。需要实现如下功能：
a)支持百度搜索引擎的域名提取，其中从百度搜索引擎提取的域名需为真实域名，而非百度的域名跳转链接；
b)可扩充其他功能，比如域名所在的标题等信息。

注意：需要首先安装beautifulsoup4，利用命令“pip install beautifulsoup4”

二、过程

研究该demo 代码可以发现，其中心思想为使用bing 搜索，搜索baidu.com 的子域名，使用python 爬虫爬取关键信息。首先从网页审查代码中将请求头信息复制下来，建立字典，设置请求头，成功获取到网页源码。最后使用urlparse 对获取的url 进行格式化，然后输出即可。
更改demo 代码中的请求头，使其绕过百度搜索引擎的反爬机制。首先，访问百度的时候，按 f12 键打开调试，然后切换到 network（网络），重新刷新一次网站，就会出现所有的请求，随机点击一个，右边出现的就是请求头信息了。
将该头信息复制进py文件中，以绕过反爬机制。

最低0.47元/天解锁文章

啦啦啦啦啦啦啦噜噜

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
1
评论
网络攻防技术——域名信息

一、作业题目本次实验主要考察大家的编程能力及子域名的信息收集方法，在文件夹“Lab1_code”提供了使用 Bing 搜索引擎的域名收集功能。请对该代码进行扩展，使其可支持百度搜索引擎的域名收集功能。需要实现如下功能：a)支持百度搜索引擎的域名提取，其中从百度搜索引擎提取的域名需为真实域名，而非百度的域名跳转链接；b)可扩充其他功能，比如域名所在的标题等信息。注意：需要首先安装beautifulsoup4，利用命令“pip install beautifulsoup4”二、过程研究该dem
复制链接

扫一扫

专栏目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。