计网实验二-编写网络爬虫

最新推荐文章于 2024-07-28 23:13:06 发布

原创

最新推荐文章于 2024-07-28 23:13:06 发布 · 744 阅读

2 ·

CC 4.0 BY-SA版权

文章标签：

#爬虫 #经验分享

实验题目1

实验要求

用任意编程语言，但不调用任何网络应用库或模块，直接使用socket编程，编写一个HTTP协议的爬虫，描写它支持的HTTP语法，并在超过1000个网站上进行测试，在报告里写一下你如何选择和编制网站列表，发现了什么现象，有什么统计规律，对观察到的互联网有什么看法？

这里我的编程语言选择为python，适用于GET请求；

首先我们需要一段爬虫代码，上网搜索了一圈，写出代码如下：

1.py

在编写代码时，我遇到一些问题，在这里做一个小的总结

1. python转义字符’ \ ’

我的代码是先从一个存放了若干使用http协议的网站的txt文件中读取这些网站在逐一进行测试，文件的选取是通过一个绝对路径写入。此处的文件路径的’ \ '一定要多写一个，否则会执行错误；
2. UTF-8编码

这里采用UTF-8解码；

3. 无法解码问题

这里的红框框的内容如果不写的话可能会在运行时出现以下警告信息：

Traceback (most recent call last):
  File "D:\Software\vscodeFile\test\1.py", line 32, in <module>
    if '200 OK' in response.decode():
                   ^^^

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

HNU第一Itai

关注关注

3
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

专栏目录

构建下一代智能爬虫：基于负载敏感与自适应调度的Scrapy-Redis优化实践

2201_76125261的博客

08-21

158

我们基于Scrapy-Redis分布式爬虫框架，融合了异步I/O、优先级队列、实时负载反馈与自适应速率控制等最新技术，设计并实现了一个能智能感知系统负载（包括目标服务器响应、本地资源消耗及网络状况）并动态调整抓取策略的高性能爬虫系统。该系统在Scrapy-Redis分布式架构的基础上，通过引入实时负载监控、自适应优先级调整和动态请求延迟控制，显著提升了爬虫的效率、稳定性和对目标网站的友好性。（目标服务器的响应时间、状态码、封禁信息）的智能调度策略，成为了提升爬虫效率、稳定性和友好性的必然选择。

[网络安全自学篇] 八十二.WHUCTF之隐写和逆向类解题思路WP（文字解密、图片解密、佛语解码、冰蝎流量分析、逆向分析）

杨秀璋的专栏

06-04

1万+

这是作者网络安全自学教程系列，主要是关于安全工具和实践操作的在线笔记，特分享出来与博友们学习，希望您喜欢，一起进步。前文分享了Easy_unserialize解题思路，详细分享文件上传漏洞、冰蝎蚁剑用法、反序列化phar等。这篇文章将详细讲解WHUCTF隐写和逆向题目，包括文字解密、图片解密、佛语解码、冰蝎流量分析、逆向分析。第一次参加CTF，还是学到了很多东西。人生路上，要珍惜好每一天与家人陪伴的日子。感谢武汉大学，感谢这些大佬和师傅们（尤其出题和解题的老师们）~

参与评论您还未登录，请先登录后发表或查看评论

一些 RSS 订阅地址集合

shine的现在进行时

03-19

1万+

几个门户网站都有各自的 RSS 订阅中心： 网易的 http://www.163.com/rss 新浪的 http://rss.sina.com.cn/ 腾讯的 http://rss.qq.com DoNews的 http://www.donews.com/rss/ 大旗的 http://www.daqi.com/rss/ 新华网的 http://www.xinhuanet.com/rss.htm

Python笔记14（异步IO）

程序员五哥

06-29

259

21. 异步IO CPU的速度远远快于磁盘、网络等IO。同步IO：遇到IO操作，如读写文件、发送网络数据时，需要等待IO操作完成，才能继续进行下一步操作。解决IO问题的方法：多线程、多进程异步IO：代码需要执行一个耗时IO操作时，它只发出指令并不等待IO结果，然后去执行其他代码，等IO返回结果时再通知CPU进行处理异步IO模型需要一个消息循环，在消息循环中，主线程不断地重复“读取消息-处理消息”这一过程： loop = get_event_loop() while True: event =

Python《爬虫初实践》

qq_29367075的博客

12-11

344

今天转转悠悠，突然不知道该学些什么，偶然的一瞬间脑子里想到了爬虫，这个我很早就了解的技术，我却没有亲自实践过，于是这次想好好地去了解下，学习下简单的使用方法，毕竟自以后的深度学习中也是有用处的，爬取图片来做数据源。一：简单入手网络的上的图片都有所在服务器URL。我们首先得获得一个可以发起HTTP请求的办法，我们使用requests包的方法。做个简单的实验，把www.baidu.com的首页HTML请求下来。 import requests #导入模块 def run(): #声明

智慧社区内网数据比对信息系统大屏展示前端源码

03-25

智慧社区内网数据比对信息系统大屏展示前端源码智慧社区内网比对平台

常用的邮箱服务器（SMTP、POP3）域名、端口汇总

热门推荐

SoyaDokio

08-27

12万+

【sina.com】 POP3服务器地址:pop3.sina.com.cn（端口：110） SMTP服务器地址:smtp.sina.com.cn（端口：25）【sinaVIP】 POP3服务器:pop3.vip.sina.com （端口：110） SMTP服务器:smtp.vip.sina.com （端口：25）【sohu.com】 POP3服务器地址:pop3.s

计算机网络课程爬虫实验.docx

11-28

1. **Python基础与爬虫实现**：学生需要具备Python基础，学习使用Python语言编写网络爬虫。Python因其简洁的语法和丰富的库支持，常被用于网络爬虫的开发。学生将学习如何使用Python的requests库发送HTTP请求获取...

【python博客爬虫】

m0_52409105的博客

10-16

1423

python 博客爬虫自己写的谨慎借鉴，小白

前端面试汇总-React

分享前端工程化、动效魔法与性能之舞！

06-29

1632

React并不是将click事件绑定到了div的真实DOM上，而是在document处监听了所有的事件，当事件发生并且冒泡到document处的时候，React将事件内容封装并交由真正的处理函数运行。这样的方式不仅仅减少了内存的消耗，还能在组件挂在销毁时统一订阅和移除事件。除此之外，冒泡到document上的事件也不是原生的浏览器事件，而是由react自己实现的合成事件（SyntheticEvent）。因此如果不想要是事件冒泡的话应该调用event.preventDefault()方法，而不是调用event

女生爱逛的十大论坛

sjbaa的专栏

04-14

4573

网易女性bbs.lady.163.com太平洋女性网论坛bbs.pclady.com.cn瑞丽论坛bbs.rayli.com.cn天涯社区www.tianya.cn1626城中至潮www.1626.com/club新浪论坛bbs.sina.com.cn凤凰网论坛 bbs.ifeng.com粉丝网论坛bbs.ifensi.co

《Python网络爬虫从入门到实践第2版》第2章编写第一个网络爬虫

jxgy01的博客

07-07

303

第2章　编写第一个网络爬虫 笔者是一个喜欢学习的人，自学了各方面的知识，总结发现：学习的动力来自于兴趣，兴趣则来自于动手做出成果的快乐。因此，笔者特意将动手的乐趣提前。在第2章，读者就可以体会到通过完成一个简单的Python网络爬虫而带来的乐趣。希望这份喜悦能让你继续学习本书的其他内容。本章主要介绍如何安装Python和编辑器Jupyter、Python的一些基础语法以及编写一个最简单的Py...

163等各种邮箱端口号设置

菜鸟的旅途的博客

09-20

2万+

各种右相对应端口号，用于项目邮件发送

门户网站！

Falcon

10-17

1200

www.163.comwww.sohu.comalumni.chinaren.com(校友录)www.sina.com.cnwww.online.sh.cn(上海热线)smail.ecnu.edu.cnhttp://www.pconline.com.cn/www.cctv.com

论坛网址

≯≯★技术专栏欢迎你!★★≮≮

11-15

2万+

论坛网址网易 http://www.163.com 　　新浪 http://www.sina.com.cn 　　17173游戏论坛 http://bbs.17173.com 　　TOM海云天 http://bbs.tom.com 　　西陆 http://www.xilu.com 　　中国学生网论坛 http://www.6to23.com 　　网际精灵社区 http://clu

《数据采集与预处理》实验二 网络爬虫初级实践

最新发布

qq_51610110的博客

07-28

2875

《数据采集与预处理》课程的实验二，将带你进入网络爬虫的初级实践世界。这不仅是一个技术实践的机会，更是一次深入了解数据采集流程的宝贵经历。通过本次实验，你将学习如何使用Python编写基本的网络爬虫，掌握网页数据的抓取、解析和存储技术。从理解HTTP请求到应用正则表达式，再到利用BeautifulSoup等库进行数据解析，每一步都充满了挑战与乐趣。 🔍 你将有机会亲手实践从互联网上抓取所需信息，处理并转化为有用的数据资源。这不仅能够锻炼你的编程能力，更能够提升你解决实际问题的能力。

Python网络爬虫实战——实验2：Python爬虫网络请求与内容解析

whwzzc的博客

01-27

1089

使用requests库对aip数据接口发起post请求，携带请求头headers与请求参数data，从响应的 JSON 数据中提取 ‘result’ 键对应的值，并使用 eval 函数将其转换为dict对象，如果返回的数据为空则跳出循环。\S表示匹配任意非空字符，()表示一个捕获组，pattern3这个re表达式可以提取到信息来源后面的文本数据。对子链接发起get请求，使用text属性获取返回的文本数据，使用lxml中的clean方法对获取到的数据进行清洗，3、掌握基础的re、xpath语法的使用；

数据采集与预处理02 ：网络爬虫实战

深竹清风的博客

01-23

2587

URL uniform resource locator. 是统一资源定位符，URI identifier是统一资源标识符。几乎所有的URI都是URL。URL前部一般可以看到是HTTP还是HTTPS，这是访问资源需要的协议类型。HTTP hyper text transfer protocol 是客户端和服务器端请求和应答的标准，是互联网中应用最为广泛的一种协议。HTTPS是以安全为目标的HTTP通道，加入了SSL层。

基于Echarts实现大屏数据可视化物虚拟数据统计

HTML网页设计

08-15

1万+

🚀 基于 Echarts 实现可视化数据大屏响应式展示效果的源码,，基于html+css+javascript+echarts制作，可以在此基础上重新开发。本项目中使用的是echarts图表库，ECharts 提供了常规的折线图、柱状图、散点图、饼图、K线图，用于统计的盒形图，用于地理数据可视化的地图、热力图、线图，用于关系数据可视化的关系图、treemap、旭日图，多维数据可视化的平行坐标，还有用于 BI 的漏斗图，仪表盘，并且支持图与图之间的混搭。 ⚽精彩专栏推荐👇🏻👇🏻👇🏻 ❤ ...

Python网络爬虫实战：源代码及实验数据分析

标题中提到的“Python网络爬虫技术-源代码和实验数据”揭示了该文件包含的内容为使用Python编写的网络爬虫相关的源代码和进行爬虫实验时产生的数据。描述部分强化了文件的具体内容，即通过网络爬虫技术进行数据抓取...