Python网络爬虫抓取彩票排列3全部历史数据

之前学了福彩3D网络爬虫技术,然后我研究了一天时间,写了一个体彩排列3爬虫抓取程序,为了感谢网友们的贡献,我决定分享代码
首先找一家比较大型的网站,500彩票网,因为是美国上市公司,轻易不会黄,这样写的代码用的时间能长些.
http://datachart.500.com/pls/

分析一下这个网页的内容,可以输入开奖期号一次查看排列3全部历史数据,但是网页代码我看不太懂,于是我开了一个http抓包程序Fiddler.

得到真实url
http://datachart.500.com/pls/history/inc/history.php?limit=15116&start=04001&end=19117

上边连接中04001是排列3上市第一期的期号,19117是我写这个程序时当天的开奖期号.

然后开始写Python代码,需要注意的是,有时候访问这个网页会失败,这是因为一次要求获取的数据太多了,打不开就重试,一定能成.

保存到本地的文件名是pl3.xls,数据全抓出来了,下一步如何分析预测就看网友们的集体智慧了

# -*- coding: utf-8 -*-
"""
Created on Sat May  4 22:00:31 2019
@author: Administrator
"""
import requests #爬虫库
import xlwt #写excel表库
import time #时间获取转换
from bs4 import BeautifulSoup #爬虫库

# 获取网页内容
def get_html(url):
Python抓取排列5历史开奖数据通常涉及网络爬虫技术,尤其是对于一些公开发布的线上数据源。你可以利用Python的库如BeautifulSoup、requests或者Scrapy来完成这个任务。以下是一个基本步骤概述: 1. 确定数据来源:查找提供排列5历史开奖信息的官方网站或者其他数据API。例如,中国体育彩票中心的官网可能会有历史开奖结果的数据。 2. 使用requests库获取网页内容:通过发送HTTP请求获取网页HTML页面,比如使用`response = requests.get('http://example.com/history')`。 3. 解析HTML:使用BeautifulSoup等解析库解析HTML,找到包含历史开奖数据的部分。这通常涉及到CSS选择器或XPath来定位特定元素。 4. 提取数据:从解析后的DOM树中提取你需要的历史开奖号码和日期信息。例如,每个开奖号码可能存储在一个表格单元格内。 ```python from bs4 import BeautifulSoup import requests url = 'http://example.com/history' response = requests.get(url) soup = BeautifulSoup(response.text, 'html.parser') # 找到含有开奖数据的表格或其他结构 result_table = soup.find('table', {'class': 'result-table'}) # 遍历表格行,提取每一期的开奖号码和日期 for row in result_table.tbody.find_all('tr'): cols = row.find_all('td') if cols: draw_date = cols[0].text winning_numbers = cols[1].text.split(',') # ...处理并保存数据 ``` 5. 数据清洗和存储:将提取的数据清洗成便于后续分析的格式,然后存入文件(如CSV、JSON)或是数据库中。 注意:在实际操作时,需要遵守网站的robots.txt协议,尊重版权,并确保合法合规地抓取数据。
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值