Python-正则表达式-天气爬虫-存储到CSV文件

最新推荐文章于 2023-08-04 11:08:48 发布

风度翩翩猪肉王子

最新推荐文章于 2023-08-04 11:08:48 发布

阅读量1.1k

点赞数 1

分类专栏：爬虫

本文链接：https://blog.csdn.net/qq_17249717/article/details/88914832

版权

爬取的网址为http://www.tianqihoubao.com/lishi/chengdu/month/201802.html。

在用正则表达式爬取时，要注意对换行符的处理。

import csv
import re
import requests
import time

def urlPool():
    '''构建url池'''
    urlList = []
    for i in range(1, 13):
        if i < 10:
        #   %字符串的替换
            urlList.append('http://www.tianqihoubao.com/lishi/chengdu/month/20180%s.html' % i)
        else:
            urlList.append('http://www.tianqihoubao.com/lishi/chengdu/month/2018%s.html' % i)
    return urlList

def getHtml(url):
    '''构造请求url函数，返回html文本'''
    try:
        headers = {
            'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/68.0.3440.106 Safari/537.36'
        }
        response = requests.get(url, headers=headers)
        if response.status_code == 200:
            return response.text
    except reques

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

风度翩翩猪肉王子

关注关注

1
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
Python-正则表达式-天气爬虫-存储到CSV文件

爬取的网址为http://www.tianqihoubao.com/lishi/chengdu/month/201802.html。import csvimport reimport requestsimport timedef urlPool(): '''构建url池''' urlList = [] for i in range(1, 13): ...
复制链接

扫一扫