一、设计任务
目标:用Python设计一个数据抓取程序,达到以下基本要求:
- 数据抓取任务自拟,如电子商务交易数据、客户评论、新闻、图片等。
- 获取的数据存储为数据文件,或sqlite数据库。
程序有适当的注释,有完整的说明文件。
二、数据来源
本爬虫程序爬取的数据均来自于中国天气网城市首页的72小时天气预报(日期、天气现象、气温及空气质量)及某时刻实时天气实况,具体网址如下:
http://www.weather.com.cn/weather1d/101280101.shtml#dingzhi_first%EF%BC%89
打开网址,查询:甘肃-酒泉-酒泉,可得如下界面:
我的设想,就是从这个界面中,爬取酒泉72小时天气预报(日期、天气现象、气温及空气质量)及某时刻实时天气实况。
三、爬取工具和环境配置
Python环境安装配置:安装Python所需要的环境,使用python3.9版本.
需要使用到的库:urllib.request、csv以及BeautifulSoup
BeautifulSoup库需要手动安装,BeautifulSoup是一个网页解析库,它支持很多解析器,不过最主流的有两个。一个是python标准库,一个是lxml HTML 解析器。两者的使用方法相似:
from bs4 import BeautifulSoup
# Python的标准库
BeautifulSoup(html, 'html.parser')
# lxml
BeautifulSoup(html, 'lxml')
四、分析过程
1.查看网页源代码
下面我给出了网页源代码的头部,我们需要分析的关键信息是找出想爬取信息对应的代码。
<!DOCTYPE html> |
|
<html> |
|
<head> |
|
<link rel="dns-prefetch" href="http://i.tq121.com.cn"> |
|
<meta charset="utf-8" /> |
|
<meta http-equiv="Content-Type" content="text/html; charset=UTF-8" /> |
|
<title>酒泉天气预报,酒泉7天天气预报,酒泉15天天气预报,酒泉天气查询 - 中国天气网</title> |
|
<meta http-equiv="Content-Language" content="zh-cn"> |
|
<meta name="keywords" content="酒泉天气预报,jqtq,酒泉今日天气,酒泉周末天气,酒泉一周天气预报,酒泉15日天气预报,酒泉40日天气预报" /> |
|
<meta name="description" content="酒泉天气预报,及时准确发布中央气象台天气信息,便捷查询北京今日天气,酒泉周末天气,酒泉一周天气预报,酒泉15日天气预报,酒泉40日天气预报,酒泉天气预报还提供酒泉各区县的生活指数、健康指数、交通指数、旅游指数,及时发布酒泉气象预警信号、各类气象资讯。" /> |
|
<!-- 城市对比上线 |