12306车站信息爬取(1)——输入条件的判断,包括出发站,到达站,和出发时间,并获取车次信息的链接

本文介绍了如何爬取12306网站上的车次信息,包括判断出发站、到达站的代码以及验证出发日期的合理性,最终获取车次信息的链接。作者分享了通过分析网页源代码获取车站信息,以及设置日期范围验证的代码示例。
摘要由CSDN通过智能技术生成

12306车站信息的爬取是一个比较复杂的系统,爬取需要的信息不是很难,但是要将最终的结果做的完善和美观却不是那么容易。作为一个学习Python的新手,我想把练习和整理结合起来,希望大家可以相互交流和探讨。

这个项目准备花如下几个部分完成:

  1. 输入条件的判断,包括出发站,到达站,和出发的时间,获取车次信息的链接;
  2. 在上一步的基础上,获取输入出发站,到达站,和出发时间的车次信息;
  3. 将输出的结果美化,使用prettytable模块和colorama模块完成美化;
  4. 添加车票的票价信息;
  5. 在进行学习;

12306车站信息爬取(1)——输入条件的判断,包括出发站,到达站,和出发时间,并获取车次信息的链接

12306车站信息爬取(2)——输入出发站,到达站和出发时间,获取车次信息的列表

12306车站信息爬取(3)——使用prettytable模块和colorama模块使输出结果美化

12306车站信息爬取(4)——添加车票的票价的信息

在这篇文章中,我要实现的就是第一步的功能, 输入条件的判断,包括出发站,到达站,和出发的时间,获取车次信息的链接;

1. 出发站,到达站的判断:

在判断之前,我们需要对我们最终要获取的链接进行分析:我们最终要获取的这个链接也就是直接可以爬取车次的信息的链接。我们可以看出链接中有出发时间,出发站的代码,和到达站的代码,所以,我们就需要获取这几个信息。

首先,我们进入12306的官网,点击右键——>查看网页源代码——>按Ctrl+F进行搜索——>搜索version——>找到station version的那个信息,打开。

进入那个页面后,我们可以看到许多的车站信息,其中就包括全拼,简拼,代码等信息。找到这个页面后,我们就是要获取这个页面的信息,然后将我们需要的部分信息获取出来。如下如所示。

将获取的数据进行分析可以发现,以@进行分析之后,第一项不是我们需要的信息,还有最后一项的两个字符,我们应该对字符串进行整齐化的处理,将我们需要的信息筛选出来。

如下代码为

爬取12306上的信息,需要使用Python的网络爬虫技术。以下是一个简单的爬虫程序,可以爬取12306上的火车票信息,并将它们保存到一个Excel文件中: 首先,需要安装一些Python库:requests和beautifulsoup4。可以使用以下命令安装: ``` pip install requests pip install beautifulsoup4 ``` 接下来,可以使用以下代码来爬取12306上的火车票信息: ```python import requests from bs4 import BeautifulSoup import openpyxl # 设置要爬取的网页链接 url = "https://kyfw.12306.cn/otn/leftTicket/query?leftTicketDTO.train_date=2021-10-01&leftTicketDTO.from_station=SHH&leftTicketDTO.to_station=BJP&purpose_codes=ADULT" # 设置请求头,模拟浏览器访问 headers = { "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/93.0.4577.63 Safari/537.36" } # 发送GET请求,获取网页内容 response = requests.get(url, headers=headers) # 解析网页内容 soup = BeautifulSoup(response.text, "html.parser") # 从网页中提取火车票信息 rows = [] for tr in soup.select("#queryLeftTable tr[data-traincode]"): row = [] row.append(tr["data-traincode"]) row.append(tr.select_one(".start-t a").text.strip()) row.append(tr.select_one(".end-t a").text.strip()) row.append(tr.select_one(".start-t + td").text.strip()) row.append(tr.select_one(".arrive-t + td").text.strip()) row.append(tr.select_one(".lishi + td").text.strip()) row.append(tr.select_one(".zy_num").text.strip()) row.append(tr.select_one(".ze_num").text.strip()) row.append(tr.select_one(".rw_num").text.strip()) row.append(tr.select_one(".yw_num").text.strip()) row.append(tr.select_one(".rz_num").text.strip()) row.append(tr.select_one(".yz_num").text.strip()) row.append(tr.select_one(".wz_num").text.strip()) rows.append(row) # 将火车票信息保存到Excel文件中 wb = openpyxl.Workbook() ws = wb.active ws.append(["车次", "出发", "到达站", "出发时间", "到达时间", "历时", "一等座", "二等座", "软卧", "硬卧", "软座", "硬座", "无座"]) for row in rows: ws.append(row) wb.save("tickets.xlsx") ``` 在代码中,首先设置要爬取的网页链接。在本例中,我们要爬取2021年10月1日从上海到北京的火车票信息。然后,设置请求头,模拟浏览器访问。接着,发送GET请求,获取网页内容,并使用BeautifulSoup解析网页内容。最后,从网页中提取火车票信息,并将它们保存到Excel文件中。 需要注意的是,12306有反爬措施,如果请求频率过高,可能会被封IP或验证码拦截。所以,在爬取12306上的信息时,需要注意控制请求频率,并处理验证码。
评论 5
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值