利用requests和正则表达式爬取王者荣耀官网英雄皮肤,并结构化保存在文件夹中
# -*- coding: utf-8 -*-
from __future__ import unicode_literals
"""
Created on Mon Aug 20 10:07:46 2018
@author: Python
"""
import requests
import re
import os
#爬取一个页面的信息
def get_one_page(url):
response = requests.get(url=url)
if response.status_code == 200:
req = response.text
# 解决网页中文乱码
html = req.encode(
'ISO-8859-1').decode(requests.utils.get_encodings_from_content(req)[0])
return html
else:
return None
#解析得到的页面信息,提取需要的数据和链接
def parse_one_page(html):
# 通过正则匹配得到需要的信息
# 匹配url
pat = r'<li><a href="herodetail/([\w]*).shtml" target="_blank">'
pattern = re.compile(pat, re.S)
result = re.findall(pattern, html)
for i in result:
# 完整的url
hero_url = "http