爬虫案例3——爬取彩票双色球数据

最新推荐文章于 2025-04-05 16:58:11 发布

ballball~~

最新推荐文章于 2025-04-05 16:58:11 发布

阅读量3.7k

点赞数 27

分类专栏：爬虫学习文章标签：爬虫 python

本文链接：https://blog.csdn.net/m0_66890670/article/details/141155775

版权

简介：个人学习分享，如有错误，欢迎批评指正

任务：从500彩票网中爬取双色球数据

目标网页地址：https://datachart.500.com/ssq/

一、思路和过程

目标网页具体内容如下：

在这里插入图片描述

我们的任务是将上图中红色、蓝色两种颜色球的数字按行爬取下来。

1.定义目标URL

由于网页普遍具有反爬程序，不加修饰的直接访问网页可能会失败，所以第一步学会伪装自己。
如何伪装自己呢，可以通过找到正常访问网页时的访问状态，将自己的这次爬虫模拟成一次正常访问网页，因此我们的目标是找到正常访问网页时的User-Agent。User Agent中文名为用户代理，(简称 UA，它是一个特殊字符串头，使得服务器能够识别客户使用的操作系统及版本、CPU 类型、浏览器及版本、浏览器渲染引擎、浏览器语言、浏览器插件等)。User-Agent就是你访问网页的身份证明。具体操作如下：

首先打开目标（/任意）网页，然后点击鼠标右键后选择检查打开网页的HTML 页面。
在这里插入图片描述

在HTML 页面里面依次点击网络，然后任意点一条网络请求（如果没有显示任何网络请求可以点击网页左上角的刷新），然后选择标头，下拉列表找到User-Agent，User-Agent后面那段内容就是我们用来伪装自己的身份码。

在这里插入图片描述

2.发送GET请求获取网页内容

通过上面的步骤我们获得了
url = ‘https://datachart.500.com/ssq/’

User-Agent:‘Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/126.0.0.0 Safari/537.36 Edg/126.0.0.0’

接下来发起网页访问请求，代码如下：

import requests  # 引入requests库，用于发送HTTP请求
from lxml import etree  # 引入lxml库中的etree模块，用于解析HTML文档

# 定义目标URL，即要爬取的网页地址
url = 'https://datachart.500.com/ssq/'

# 定义HTTP请求头，其中包括User-Agent信息，用于伪装成浏览器进行访问
headers = {
   
    'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/126.0.0.0 Safari/537.36 Edg/126.0.0.0'
}

# 发送GET请求获取网页内容，并将响应内容存储在resp变量中
resp = requests.get(url, headers=headers)
# 设置响应内容的编码格式为gbk，确保中文字符正常显示
resp.

最低0.47元/天解锁文章