爬取双色球的历史记录
1.项目简介
双色球是由中国福利彩票的一种玩法。双色球投注区分为红色球号码区和蓝色球号码区,红色球号码区由1-33共三十三个号码组成,蓝色球号码区由1-16共十六个号码组成。投注时选择6个红色球号码和1个蓝色球号码组成一注进行单式投注,每注金额人民币2元。
今天爬取一个关于双色球开奖历史的网站。
2.项目流程
1.获取目标网站
2.解析目标网站
3.数据获取
4.数据保存
3.项目准备
1.目标网站
2.工具准备:
pandas
requests
lxml
3.网页解析
使用xpath
解析网页
4.数据存储
将数据保存在CSV
文件中
4.程序编写
1.获取每一页的URL
def get_pag_url():
"""
获取每一页的URL
"""
urls=[]
for i in range(1,123+1):
i=str(i)
url= 'http://kaijiang.zhcw.com/zhcw/html/ssq/list_'+i+'.html'
urls.append(url)
return urls
2.获取每一页的数据信息
def get_imfomation(url):
"""
获取每一页的数据信息
"""
resp=requests.get(url).text
html=etree.HTML(resp)
data=html.xpath('//tr/td[1]/text()')
number=html.xpath('//tr/td[2]/text()')
red_1=html.xpath('//tr/td[3]/em[1]/text()')
red_2=html.xpath('//tr/td[3]/em[2]/text()')
red_3=html.xpath('//tr/td[3]/em[3]/text()')
red_4=html.xpath('//tr/td[3]/em[4]/text()')
red_5=html.xpath('//tr/td[3]/em[5]/text()')
red_6=html.xpath