一个简单的爬虫例子-天气

一、设计任务

目标:用Python设计一个数据抓取程序,达到以下基本要求:

  • 数据抓取任务自拟,如电子商务交易数据、客户评论、新闻、图片等。
  • 获取的数据存储为数据文件,或sqlite数据库。

程序有适当的注释,有完整的说明文件。

二、数据来源

本爬虫程序爬取的数据均来自于中国天气网城市首页的72小时天气预报(日期、天气现象、气温及空气质量)及某时刻实时天气实况,具体网址如下:

http://www.weather.com.cn/weather1d/101280101.shtml#dingzhi_first%EF%BC%89

打开网址,查询:甘肃-酒泉-酒泉,可得如下界面:

我的设想,就是从这个界面中,爬取酒泉72小时天气预报(日期、天气现象、气温及空气质量)及某时刻实时天气实况。

三、爬取工具和环境配置

Python环境安装配置:安装Python所需要的环境,使用python3.9版本.

需要使用到的库:urllib.request、csv以及BeautifulSoup

BeautifulSoup库需要手动安装,BeautifulSoup是一个网页解析库,它支持很多解析器,不过最主流的有两个。一个是python标准库,一个是lxml HTML 解析器。两者的使用方法相似:

from bs4 import BeautifulSoup

# Python的标准库

BeautifulSoup(html, 'html.parser')

# lxml

BeautifulSoup(html, 'lxml')

四、分析过程

1.查看网页源代码

下面我给出了网页源代码的头部,我们需要分析的关键信息是找出想爬取信息对应的代码。

<!DOCTYPE html>

 

<html>

 

<head>

 

<link rel="dns-prefetch" href="http://i.tq121.com.cn">

 

<meta charset="utf-8" />

 

<meta http-equiv="Content-Type" content="text/html; charset=UTF-8" />

 

<title>酒泉天气预报,酒泉7天天气预报,酒泉15天天气预报,酒泉天气查询 - 中国天气网</title>

 

<meta http-equiv="Content-Language" content="zh-cn">

 

<meta name="keywords" content="酒泉天气预报,jqtq,酒泉今日天气,酒泉周末天气,酒泉一周天气预报,酒泉15日天气预报,酒泉40日天气预报" />

 

<meta name="description" content="酒泉天气预报,及时准确发布中央气象台天气信息,便捷查询北京今日天气,酒泉周末天气,酒泉一周天气预报,酒泉15日天气预报,酒泉40日天气预报,酒泉天气预报还提供酒泉各区县的生活指数、健康指数、交通指数、旅游指数,及时发布酒泉气象预警信号、各类气象资讯。" />

 

<!-- 城市对比上线

  • 0
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值