爬虫实战——网页抓取及信息提取

Ssaty.

已于 2022-11-17 15:59:22 修改

阅读量5.9k

点赞数 4

分类专栏： Educoder实训文章标签：前端 servlet

于 2022-07-02 11:38:44 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/Junds0/article/details/125570965

版权

Educoder实训专栏收录该内容

1398 篇文章 3829 订阅 ¥39.90 ¥99.00

订阅专栏

超级会员免费看

第1关：利用URL获取超文本文件并保存至本地文本文件

任务描述
当我们想要在浏览器中打开一个网页时，需要在浏览器的地址栏中输入该网页的url，例如在地址栏中输入百度搜索网站的首页url：https://www.baidu.com/ ，点击确认后，浏览器将向服务器发出一个对该网的请求；服务器端收到请求后，会返回该网页的超文本文件，浏览器收到服务器端发来的网页超文本文件后，对其进行解析，然后在窗口中显示该超文本文件对应的网页。如下图所示。

编程要求
利用urllib.request模块中的方法，补全step1()函数。该函数将国防科技大学本科招生信息网中录取分数网页抓取下来，并保存在本地，具体要求：

正确使用urllib.request的相关函数获取指定url的内容；
将获取的页面内容，写入本地文件，命名为nudt.txt。
测试说明
平台会对你编写的代码进行测试，比对你输出的结果与实际正确的结果，只有所有结果全部正确才算完成本关任务。

开始你的任务吧，祝你成功！

# -*- coding: utf-8 -

了解本专栏

超级会员免费看

关注

4
点赞
踩
10

收藏

觉得还不错? 一键收藏
打赏
0
评论
爬虫实战——网页抓取及信息提取

当我们想要在浏览器中打开一个网页时，需要在浏览器的地址栏中输入该网页的url，例如在地址栏中输入百度搜索网站的首页url：https://www.baidu.com/ ，点击确认后，浏览器将向服务器发出一个对该网的请求；服务器端收到请求后，会返回该网页的超文本文件，浏览器收到服务器端发来的网页超文本文件后，对其进行解析，然后在窗口中显示该超文本文件对应的网页。通过上一关卡，我们学会了如何对文件中的数据进行分析，现已将2016年国防科技大学录取的分数最高的3个省份，存储至本地文件中。
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

Ssaty. 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。