3d、排列三的历史数据时间跨度有10多年,可以抓取作为参考使用
一、导入模块
import requests #爬虫库
import xlwt #写excel表库
import time #时间获取转换
from bs4 import BeautifulSoup #爬虫库
二、获取网页
def get_html(url):
#这是一个UA伪装,告诉网站你浏览器和操作系统系统
headers = {
'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_13_5) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/67.0.3396.99 Safari/537.36'
}
response = requests.get(url, headers = headers)#用爬虫对象获取网页内容
if response.status_code == 200:#对象状态码等于200说明获取网页内容成功
print('读取网页成功!')
return response.text#返回获取的网页内容
else:
print('读网页失败,无数据!')
return None
三、解析网页
def parse_html(html):
soup = BeautifulSoup(html, 'lxml')#创建网页解析器对象
i = 0
#查找网页里的tr标签,从第4个tr读到倒数第2个tr,因为通过对网页分析,前三个和最后一个tr没用
for item in soup.select('tr')[3:-1]:#把查到的tr组成一个列表,item是列表指针,for每循环一次,i