使用正则表达式爬取西安7天的天气预报
这个爬虫的案例就是对正则表达式的运用,通过这个案例,我们可以对正则表达式有更加深入的理解。
1. 信息来源:
天气网。 链接为:https://www.tianqi.com/xian/7
2. 解析需要爬取的信息:
进入主页,我们可以看到如上图所示的信息,我们需要爬取的就是上图中的所有内容。
我们在主页中点击右键——>查看网页源代码——>找到对应的信息——>如图所示
我们对上图所示的信息进行分析,可以发现:(匹配就得多试验,每个人的匹配方式可能不同,多尝试)
- 日期可以通过正则表达式—— r'>(\d\d月\d\d日)<' 匹配到;
- 星期可以通过正则表达式—— r'class="week">(.+)</dd>' 匹配到;
- 空气质量可以通过正则表达式—— r'>(.{1,4})</b></dd>' 匹配到;
- 天气可以通过正则表达式——