话不多说,直接上代码
1、爬取历史开奖记录
import requests
from bs4 import BeautifulSoup
import re
import pandas as pd
# 返回字符串中的数字
def extract_numbers(s, is_str=True):
if is_str:
return ''.join([num for num in re.findall(r'\d+', s)])
else:
return [int(num) for num in re.findall(r'\d+', s)]
# 网站的开奖号是图片,需字典映射成数字
img_to_num = {
'20180820032902101600.png': '1', '20180820032902102212.png': '2', '20180820032902103176.png': '3',
'20180820032902104855.png': '4', '20180820032902105626.png': '5', '20180820032902106488.png': '6',
'20180820032902107839.png': '7', '20180820032902108769.png': '8', '20180820032902109210.png': '9',
'20180820032902110435.png': '10', '20180820032902111316.png': '11', '20180820032902112341.png': '12',
'20180820032902113809.png': '13', '20180820032902114700.png': '14', '20180820032902115788.png': '15',
'20180820032902116463.png': '16', '20180820032902117946.png': '17', '20180820032902118438.png': '18',
'2018