计网实验二-编写网络爬虫

最新推荐文章于 2024-11-06 07:26:29 发布

HNU第一Itai

最新推荐文章于 2024-11-06 07:26:29 发布

阅读量644

点赞数 3

分类专栏：计算机网络文章标签：爬虫经验分享

本文链接：https://blog.csdn.net/shyyyyyy___/article/details/129930755

版权

计算机网络专栏收录该内容

11 篇文章 2 订阅

订阅专栏

实验题目1

实验要求

用任意编程语言，但不调用任何网络应用库或模块，直接使用socket编程，编写一个HTTP协议的爬虫，描写它支持的HTTP语法，并在超过1000个网站上进行测试，在报告里写一下你如何选择和编制网站列表，发现了什么现象，有什么统计规律，对观察到的互联网有什么看法？

这里我的编程语言选择为python，适用于GET请求；

首先我们需要一段爬虫代码，上网搜索了一圈，写出代码如下：

1.py

在编写代码时，我遇到一些问题，在这里做一个小的总结

1. python转义字符’ \ ’

我的代码是先从一个存放了若干使用http协议的网站的txt文件中读取这些网站在逐一进行测试，文件的选取是通过一个绝对路径写入。此处的文件路径的’ \ '一定要多写一个，否则会执行错误；
2. UTF-8编码

这里采用UTF-8解码；

3. 无法解码问题

这里的红框框的内容如果不写的话可能会在运行时出现以下警告信息：

Traceback (most recent call last):
  File "D:\Software\vscodeFile\test\1.py", line 32, in <module>
    if '200 OK' in response.decode():
                   ^^^^^^^^^^^^^^^^^
UnicodeDecodeError: 'utf-8' codec can't decode byte 0xe7 in position 1359: unexpected end of data

这个错误可能是由于服务器返回的数据不是UTF-8编码的。
在try代码块中，使用UTF-8编码对接收的数据进行解码，如果出现UnicodeDecodeError，则忽略该错误。在except代码块中，打印出错误消息，以便于调试问题。

4. 分网站输出txt

分网站输出txt
在代码中这条字段的目的就是根据不同的url来输出对应的响应报文，并保存在以该url命名的txt文件中

测试网站列表

测试网站（若干）都保存在名字为http_web的txt文件中，和网络爬虫代码所在的1.py在同一个文件夹下；
下面是测试网站的部分截图：
测试网站（部分）

部分站点的响应信息

  在测试代码运行之后，每个测试网站的响应信息都被写入一个以他名字命名的txt文档当中：
网站响应信息txt列表
在所有txt文档中：
  在相应信息的头部之前都会输出一个段信息这是我在我自己的爬虫代码中添加输出的，用于标识是否能成功的从该网站爬取信息
  若成功则形如：
成功爬取显示样例

若不成功则形如：
不成功爬取显示样例

在相应信息的末尾都会有这个字段，这是我在我自己的爬虫代码中添加输出的，其实原本是因为所有信息都输出到了一个txt文档当中，加入这个字段用于区分不同网址的响应信息，使得不同网站的响应信息可以相互分隔开来，使得条理更加清晰：
结尾响应信息

www.163.com

www.aliyun.com

www.baidu.com（少数状态码为200）

www.baidu.com

www.douban.com

www.ifeng.com

www.jd.com

www.qq.com

www.sina.com.cn

www.sohu.com

www.taobao.com

实验第一部分总结

现象和统计规律

从响应报文的情况来看，只有少数网站站点的返回信息为200，例如www.baidu.com；其余多数网站都返回了301（所请求的资源已经被永久移动到新的位置。），302（请求的资源临时被移动到新的位置。），403（服务器拒绝访问请求的资源）。
大部分网站现如今都使用HTTPS协议，已经很少有网站直接使用http协议了。特别是对于一些需要账号密码登录的页面来说，如果直接使用http协议无疑是致命的。即使直接使用http协议也会进行一些相应的手段，例如湖南大学的个人门户登录网页使用的虽然是http协议，但他在密码处做了加密，以及相应的处理，使得即使获取了加密串也无法真正做到解密。

我自己的看法

虽然现代网站已经逐渐转向使用更安全、高效、灵活的协议，但是仍然有一些网站在使用HTTP协议。虽然HTTP协议存在一些安全和性能上的问题，但对于一些小型网站或简单的应用来说，使用HTTP协议可能并不会带来过多的风险和影响。但随着网络安全和性能要求的提高，越来越多的网站将会转向更加安全、高效的协议。
HTTP协议在互联网的早期发展阶段非常流行，因为它是一个简单、通用的协议，可以很容易地实现客户端和服务器之间的通信。但是随着互联网的快速发展和网站规模的不断扩大，HTTP协议的一些局限性和缺陷逐渐暴露出来，这些问题使得现在的网站使用HTTP协议已经变得不够适用了，主要原因包括：