实验题目1
实验要求
用任意编程语言,但不调用任何网络应用库或模块,直接使用socket编程,编写一个HTTP协议的爬虫,描写它支持的HTTP语法,并在超过1000个网站上进行测试,在报告里写一下你如何选择和编制网站列表,发现了什么现象,有什么统计规律,对观察到的互联网有什么看法?
这里我的编程语言选择为python,适用于GET请求;
首先我们需要一段爬虫代码,上网搜索了一圈,写出代码如下:

在编写代码时,我遇到一些问题,在这里做一个小的总结
1. python转义字符’ \ ’

我的代码是先从一个存放了若干使用http协议的网站的txt文件中读取这些网站在逐一进行测试,文件的选取是通过一个绝对路径写入。此处的文件路径的’ \ '一定要多写一个,否则会执行错误;
2. UTF-8编码

这里采用UTF-8解码;
3. 无法解码问题

这里的红框框的内容如果不写的话可能会在运行时出现以下警告信息:
Traceback (most recent call last):
File "D:\Software\vscodeFile\test\1.py", line 32, in <module>
if '200 OK' in response.decode():
^^^

最低0.47元/天 解锁文章
158

被折叠的 条评论
为什么被折叠?



