一、作业题目
本次实验主要考察大家的编程能力及子域名的信息收集方法,在文件 夹“Lab1_code”提供了使用 Bing 搜索引擎的域名收集功能。请对该代码进行扩展,使其可支持百度搜索引擎的域名收集功能。需要实现如下功能:
a)支持百度搜索引擎的域名提取,其中从百度搜索引擎提取的域名需为真实域名,而非百度的域名跳转链接;
b)可扩充其他功能,比如域名所在的标题等信息。
注意:需要首先安装beautifulsoup4,利用命令“pip install beautifulsoup4”
二、过程
-
研究该demo 代码可以发现,其中心思想为使用bing 搜索, 搜索baidu.com 的子域名,使用python 爬虫爬取关键信息。首先从网页审查代码中将请求头信息复制下来,建立字典,设置请求头,成功获取到网页源码。最后使用urlparse 对获取的url 进行格式化, 然后输出即可。
-
更改demo 代码中的请求头,使其绕过百度搜索引擎的反爬机制。首先,访问百度的时候,按 f12 键打开调试,然后切换到 network(网络),重新刷新一次网站,就会出现所有的请求,随机点击一个, 右边出现的就是请求头信息了。
-
将该头信息复制进py文件中,以绕过反爬机制。