借鉴博客
《十行代码用pandas的read_html爬取中彩网双色球历年全部数据》https://blog.csdn.net/wwivywwivy/article/details/81810067
数据来源:
http://kaijiang.zhcw.com/zhcw/html/ssq/list_1.html
存在问题:
该文中将同一个单元格中的开奖数据没有提取出来
解决方案:
将开奖数据单元格中的七个号码分别提取存入七个单元格中
import pandas as pd
import csv
import linecache
def get_one_page(page):
url = 'http://kaijiang.zhcw.com/zhcw/html/ssq/list_%s.html' % (str(page))
tb = pd.read_html(url, skiprows=[0, 1])[0] # 跳过前两行 (去除前两行开奖日期 期号 中奖号码 销售额(元) 等信息,后面自己定义标题)
return tb.drop([len(tb)-1]) # len(tb)是抓取的网页行数,去掉最后一行(去掉最后一行共116 页 /2318 条记录 首页 上一页 下一页 末页 当前第 1 页等信息)
with open(r'F:\PythonFiles\PycharmFile\ssq.csv', 'w', encoding=&