Python网络爬虫抓取彩票排列3全部历史数据小幅修改版

博主分享了两年前编写的Python网络爬虫代码,用于抓取彩票排列3的历史数据。最近,他发现数据中中奖号之间存在空格,为便于数据分析,他在原有代码上进行了小幅度修改,添加了代码 `.replace(" ", “”)` 以去除空格。" 78785568,1331530,Java并发编程实践:线程池的使用与策略,"['Java', '并发编程']

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

原来的代码地址
https://blog.csdn.net/lmhopen/article/details/89873575

一恍两年过去了,真是时光飞逝,这两年发生了太多的事情,我也两年没玩编程了,最近比较闲,又看了一下以前编的抓排列3历史数据的代码,发现一处小麻烦,抓来的彩票中奖号之间竟然有空格键,这样进行数据分析的时候就麻烦,所以加了一句.replace(" ", “”)代码,去掉了空格键

# -*- coding: utf-8 -*-
"""
Created on Sat May  4 22:00:31 2019
@author: Administrator
"""
import requests  #爬虫库
import xlwt  #写excel表库
import time  #时间获取转换
from bs4 import BeautifulSoup  #爬虫库


# 获取网页内容
def get_html(url):
    #这是一个UA伪装,告诉网站你浏览器和操作系统系统
    headers = {
   
        'User-Agent':
        'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_13_5) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/67.0.3396.99 Safari/537.36'
    }
    response = requests.get(url, headers=headers)  #用爬虫对象获取网页内容
    if response.status_code == 200:  #对象状态码等于200说明获取网页内容成功
        print('读取网页成功!')
        return response.text  #返回获取的网页内容
    else:
        print('读网页失败,无数据!')
    return None


# 解析网页内容
def parse_html(html):
    soup = BeautifulSoup(html, 'lxml')  #创建网页解析器对象
    i = 0
    #查找网页里的tr标签,从第4个tr读到倒数第2个tr,因为通过对网页分析,前三个和最后一个tr没用
    for item in soup.select(
            'tr'
    )[3:-1]:  #把查到的tr组成一个列表,item是列表指针,for每循环一次,item就选下一个tr,读完列表本循环结束,函数就结束,
        try:  #不加try和except有的值是&nbsp,是网页里的空白键,会出错,加上调试命令忽略错误,后边统一处理
            yield {
     #yield作用是得到数据立即返回给调用函数,但不退出本循环本函数
                'issue': item.select('td')
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值