最近学习用python写爬虫,学的东西找个地方去用比较有趣,于是随便选个天气的网站爬下跟天气相关的消息
。
1、首先导入用到的库
import requests
import re
from bs4 import BeautifulSoup
requests库从网上获取资源,re/bs4 库,用来提取需要的信息。
2、获取网络资源
打开要爬取的网站:”https://www.tianqi.com/suzhou/15/“,右击查看其源代码, 找到感兴趣的内容,如下
<div class="tit_img01">
<i><a href="//www.tianqi.com/suzhou/" title="苏州天气网"><img src="http://content.pic.tianqistatic.com/content/20170918/f400de5dbe57a2378c17796d32589b6b.jpg" alt="苏州天气预报一周"></a></i>
<h1>苏州天气预报15天</h1>
<span>2020年01月12日 星期日 己亥年腊月十八 </span>
<p>今日天气:苏州市,多云,气温2℃~7℃,西北风1级,当前温度3℃。 </p>
</div>
定义一个get_html()函数从网络获取资源,并提取感兴趣的内容并返回,代码如下所示
def get_html():
#模拟浏览器,防止请求被拒绝
ur