计网实验二-编写网络爬虫

实验题目1

实验要求

  用任意编程语言,但不调用任何网络应用库或模块,直接使用socket编程,编写一个HTTP协议的爬虫,描写它支持的HTTP语法,并在超过1000个网站上进行测试,在报告里写一下你如何选择和编制网站列表,发现了什么现象,有什么统计规律,对观察到的互联网有什么看法?

  这里我的编程语言选择为python,适用于GET请求;

  首先我们需要一段爬虫代码,上网搜索了一圈,写出代码如下:

1.py

在编写代码时,我遇到一些问题,在这里做一个小的总结

1. python转义字符’ \ ’
转义字符
  我的代码是先从一个存放了若干使用http协议的网站的txt文件中读取这些网站在逐一进行测试,文件的选取是通过一个绝对路径写入。此处的文件路径的’ \ '一定要多写一个,否则会执行错误;
2. UTF-8编码
UTF-8编码
  这里采用UTF-8解码;

3. 无法解码问题
无法解码问题

  这里的红框框的内容如果不写的话可能会在运行时出现以下警告信息:

Traceback (most recent call last):
  File "D:\Software\vscodeFile\test\1.py", line 32, in <module>
    if '200 OK' in response.decode():
                   ^^^
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值