python爬取疫情数据保存至mysql
目标数据
由于数据是Json格式,这里使用了正则表达式解析数据。
本次爬取难度不大,主要有以下两点需要注意
-
正则表达式的规则;用(.*?)表示待匹配的内容,将左、右两边的数据卡死(常规套路)。
-
爬下来的数据,需要转为List类型才能放到mysql中。
保存到mysql中:
完整代码:
# 2020/9/10
import requests,re
import pymysql
class Crawl(object):
def __init__(self):
self.headers = {
'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/77.0.3865.75 Safari/537.36',
'Referer': 'http://2019ncov.nosugartech.com/?tdsourcetag=s_pctim_aiomsg',
'Accept': 'application/json, text/javascript, */*; q=0.01',
'X-Requested-With': 'XMLHttpRequest',
}
def getHtml(self,url):
self.response = requests.get(url