实验1-Python数据采集与存储
文章目录
一、实验目的与要求
1、目的
理解抓取网页数据的一般处理过程;熟悉应用Chrome浏览器的工具分析网页的基本操作步骤;掌握使用Requests库获取静态网页的基本方法;掌握Beautiful Soup提取静态网页信息的主要技术。
理解网络数据采集的Robots协议的基本要求,能合规地进行网络数据采集。
2、要求
编写一个网络爬虫,爬取某个网站的信息并存储到文件或数据库中。学生既可以使用Requests/Beautiful Soup库来实现信息采集,也可以自选其他爬虫技术,对爬取的网站也允许自选,但需要符合相关网站的规定。
二、实验过程
我选取的爬取网页是:北京历史天气预报 2023年3月份
1、观察所爬取网站的Robots协议的相关内容
Robots协议是一种标准化的文本文件,其作用是向网络爬虫或机器人提供有关网站如何被爬取的指示和限制。该协议告诉网络爬虫哪些页面可以被抓取,