使用selenium获取1000期双色球数据

使用 Python 爬虫获取双色球数据

一、分析需求

1.需要爬取的页面

url:双色球开奖结果_中彩网

在这里插入图片描述

2.找到近1000期的彩票

输入期数1000,跳转到拥有1000期历史数据的页面

在这里插入图片描述

通过点击每页页数,观察url变化得知,该页面采用了AJAX,因此无法通过改变url来获取每页的源代码。

在这里插入图片描述

3.保存数据

获取到1000期的数据后,存放到名为data1.csv文件中,,并重新命名表头。

在这里插入图片描述

二、实现步骤

1.解决AJAX反爬技术

使用 Selenium 库来模拟浏览器行为,访问双色球数据的网页。这能够动态加载网页内容,解决异步请求的机制,并在浏览器中执行 JavaScript 代码,以确保能获取到最新的数据。

import time

from selenium import webdriver
from selenium.webdriver.common.by import By
from selenium.webdriver.edge.service import Service

import pandas as pd

pd.set_option('display.max_columns', None)  # 显示完整的列
pd.set_option('display.max_rows', None)  # 显示完整的行
pd.set_option('display.expand_frame_repr', False)

# 2.创建浏览器操作对象
path = Service('msedgedriver.exe')

# 不会自动关闭
options = webdriver.EdgeOptions()

options.add_argument('User-Agent=Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/114.0.0.0 Safari/537.36 Edg/114.0.1823.67')

# 使浏览器的window.navigator.webdriver的属性为false
options.add_argument('--disable-blink-features=AutomationControlled')

options.add_experimental_option('detach', True)

browser = webdriver.Edge(service=path, options=options)

# 3.访问网站
url = 'https://www.zhcw.com/kjxx/ssq/'

browser.get(url)

2.解析组件

因选用的是selenium,故可以让程序模拟人为点击页面跟输入数据。

点击查询及下一页的代码如下:

button1 = browser.find_element(By.XPATH, '//div[@class="wq-xlk01"]')
button1.click()
input_1 = browser.find_element(By.XPATH, '//div[@class="xc-q"]/input[@class="qscount"]').send_keys('1000')
button2 = browser.find_element(By.XPATH, '//div[@class="JG-an03"]')
time.sleep(1)
button2.click()

time.sleep(2)

js_buttom = "var q=document.documentElement.scrollTop=10000"
browser.execute_script(js_buttom)

3.定义表头

df = pd.DataFrame(columns=['期号', '开奖日期', '开奖号码|红球', '开奖号码|蓝球', '总销售额(元)', '一等奖|注数',
                  '一等奖|单注奖金(元)', '二等奖|注数', '二等奖|单注奖金(元)', '三等奖|注数',
                  '三等奖|单注奖金(元)', '奖池(元)', '详情'])

df.to_csv('data1.csv', header=True, index=None, encoding='utf-8')

4.抓取、清洗及保存数据

  1. 利用Pandas 的 read_html() 方法解析表格数据:Pandas 提供了便捷的方法来将网页中的表格数据解析为数据框架对象,简化了数据提取和处理的过程。

  2. 使用 Pandas 数据框架的 to_csv() 方法将爬取到的数据保存为 CSV 文件。这样,我们可以将数据结构化存储,并可以随时使用 Pandas 或其他数据处理工具对数据进行分析和处理。

df = pd.DataFrame()

i = 1
while(i < 34):
    content = browser.page_source
    df = pd.DataFrame()

    # 获取表格数据
    df = df._append(pd.read_html(content, header=1), ignore_index=True)
    # 数据清洗处理
    df.drop("详情", axis=1, inplace=True)
    df.drop(index=0, inplace=True)
    print(df)
    # 写入csv文件中
    df.to_csv('data1.csv', mode='a', header=False, index=None, encoding='utf-8')
    i += 1
    time.sleep(1)
    # 点击下一页
    browser.find_element(By.XPATH, '//a[@title="' + str(i) + '"]').click()

5.完整代码

import time

from selenium import webdriver
from selenium.webdriver.common.by import By
from selenium.webdriver.edge.service import Service

import pandas as pd

pd.set_option('display.max_columns', None)  # 显示完整的列
pd.set_option('display.max_rows', None)  # 显示完整的行
pd.set_option('display.expand_frame_repr', False)

# 2.创建浏览器操作对象
path = Service('msedgedriver.exe')

# 不会自动关闭
options = webdriver.EdgeOptions()

options.add_argument('User-Agent=Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/114.0.0.0 Safari/537.36 Edg/114.0.1823.67')

# 使浏览器的window.navigator.webdriver的属性为false
options.add_argument('--disable-blink-features=AutomationControlled')

options.add_experimental_option('detach', True)

browser = webdriver.Edge(service=path, options=options)

# 3.访问网站
url = 'https://www.zhcw.com/kjxx/ssq/'

browser.get(url)

button1 = browser.find_element(By.XPATH, '//div[@class="wq-xlk01"]')
button1.click()
input_1 = browser.find_element(By.XPATH, '//div[@class="xc-q"]/input[@class="qscount"]').send_keys('1000')
button2 = browser.find_element(By.XPATH, '//div[@class="JG-an03"]')
time.sleep(1)
button2.click()

time.sleep(2)

js_buttom = "var q=document.documentElement.scrollTop=10000"
browser.execute_script(js_buttom)

content = browser.page_source

df = pd.DataFrame(columns=['期号', '开奖日期', '开奖号码|红球', '开奖号码|蓝球', '总销售额(元)', '一等奖|注数',
                  '一等奖|单注奖金(元)', '二等奖|注数', '二等奖|单注奖金(元)', '三等奖|注数',
                  '三等奖|单注奖金(元)', '奖池(元)', '详情'])

df.to_csv('data1.csv', header=True, index=None, encoding='utf-8')

i = 1
while(i < 34):
    content = browser.page_source
    df = pd.DataFrame()

    # 获取表格数据
    df = df._append(pd.read_html(content, header=1), ignore_index=True)
    # 数据清洗处理
    df.drop("详情", axis=1, inplace=True)
    df.drop(index=0, inplace=True)
    print(df)
    # 写入csv文件中
    df.to_csv('data1.csv', mode='a', header=False, index=None, encoding='utf-8')
    i += 1
    time.sleep(1)
    # 点击下一页
    browser.find_element(By.XPATH, '//a[@title="' + str(i) + '"]').click()
    print(i)

三、总结

这篇博客中介绍了使用 Python 的 Selenium 和 Pandas 库来爬取双色球数据并发布到博客的过程。通过模拟浏览器行为和使用 Pandas 的数据处理功能,我们能够轻松地获取最新的数据,并将其保存为结构化的文件并发布到博客中,使读者可以方便地访问和下载数据。这个方法为数据获取和发布提供了简单、高效的解决方案,同时展示了 Python 在爬虫和数据处理方面的便捷性和灵活性。

文末:本文仅供学习使用,不支持任何商业或投资用途!
新的数据,并将其保存为结构化的文件并发布到博客中,使读者可以方便地访问和下载数据。这个方法为数据获取和发布提供了简单、高效的解决方案,同时展示了 Python 在爬虫和数据处理方面的便捷性和灵活性。

文末:本文仅供学习使用,不支持任何商业或投资用途!

  • 1
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 1
    评论
Selenium 是一个用于自动化浏览器操作的工具,但是它仅限于对静态网页内容的获取和操作。对于动态数据(比如通过AJAX加载的内容或者通过JavaScript生成的内容),Selenium的默认行为是在页面加载完成后立即获取页面的源代码,而不会等待动态内容的加载。 要解决Selenium获取不到动态数据的问题,可以使用以下方法: 1. 显式等待:在需要获取动态数据的地方,使用Selenium提供的显式等待功能。通过设置合适的等待时间,让Selenium等待动态内容加载完成后再获取数据。 2. 使用JavaScript执行代码:通过执行JavaScript代码,可以模拟页面上的动作并获取到动态数据。可以使用Selenium提供的execute_script方法来执行JavaScript代码。 3. 使用浏览器插件:有一些浏览器插件(例如PhantomJS、Headless Chrome等)可以在无界面模式下运行,并支持动态数据获取。可以将这些插件与Selenium结合使用,通过控制插件运行来获取动态数据。 4. 使用API请求数据:如果网站提供了API接口来获取数据,可以直接使用Selenium发送HTTP请求来获取动态数据,而不是通过浏览器页面来获取。 需要注意的是,以上方法都需要根据具体的网站和动态数据的加载方式来选择合适的解决方案。有时候可能需要结合多种方法来获取完整的动态数据。此外,有些网站可能会有反爬虫机制,为了避免被封禁,应该尽量模拟正常用户的操作行为,避免频繁请求和不必要的操作。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

Jony..

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值