爬取12306全国各车站信息以及输入信息查询车次

1.查询全国各车站信息并保存为json格式

mport time
import json
import requests
from requests.exceptions import RequestException


def getResponse(url):
    try:
        headers = {
            "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/120.0.0.0 Safari/537.36",}
        response = requests.get(url, headers=headers)
        if response.status_code == 200:
            return response
        return None
    except RequestException:
        return None


if __name__ == "__main__":
    url = "https://kyfw.12306.cn/otn/resources/js/framework/station_name.js"
    data = getResponse(url)
    if data is not None:
        dict_data = {}
        text = data.text
        str_split = text.split('@')
        for chars in str_split[1:]:
            station = chars.split('|')
            dict_data[station[1]] = station[2]
        # print (dict_data['深圳北'])
        with open("stations.json", 'w', encoding='utf-8') as fp:
            json.dump(dict_data, fp, ensure_ascii=False)

2.爬取车次信息

import pandas as pd
import requests
import json
'''
f = open('city.json',mode='r',encoding='utf-8')
text = f.read()
city_json = json.loads(text)



'''

url = 'https://kyfw.12306.cn/otn/leftTicket/query?'

data = {
    'leftTicketDTO.train_date': '2023-12-09',
    'leftTicketDTO.from_station': 'BJP',
    'leftTicketDTO.to_station': 'CDW',
    'purpose_codes': 'ADULT'
}

headers = {'User-Agent':
                'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/118.0.0.0 Safari/537.36',
           'Cookie':
                'JSESSIONID=075AD1662DDC1E1B4BA1C32399779883; BIGipServerpassport=921174282.50215.0000; guidesStatus=off; highContrastMode=defaltMode; cursorStatus=off; route=9036359bb8a8a461c164a04f8f50b252; BIGipServerotn=2045247754.50210.0000; _jc_save_fromStation=%u5317%u4EAC%2CBJP; _jc_save_toStation=%u6210%u90FD%2CCDW; _jc_save_fromDate=2023-12-09; _jc_save_toDate=2023-12-09; _jc_save_wfdc_flag=dc',
           'Referer':
                'https://kyfw.12306.cn/otn/leftTicket/init?linktypeid=dc&fs=%E5%8C%97%E4%BA%AC,BJP&ts=%E6%88%90%E9%83%BD,CDW&date=2023-12-09&flag=N,N,Y'



                           }

response = requests.get(url=url,params=data,headers=headers)
response.encoding = response.apparent_encoding  # 自动识别编码

result = response.json()['data']['result']
lis = []
for index in result:
    index_list = index.replace('有','Yes').replace('无','No').split('|')  # 字符串分割方法,分割返回的是列表数据
    num = index_list[3]    #车次
    if 'G' in num:
        start_time = index_list[8]  # 出发时间
        end_time = index_list[9]  # 到达时间
        use_time = index_list[10]  # 耗时
        Top = index_list[32]      # 特等座
        first = index_list[31]     # 一等座
        second = index_list[30]    # 二等座
        dit = {
            'num':num,
            'start':start_time,
            'end':end_time,
            'usetime':use_time,
            'Top':Top,
            'first':first,
            'second':second,
            'yz':'-',
            'wz':'-',
            'rw':'-',
            'yw':'-',


        }
    else:
        start_time = index_list[8]  # 出发时间
        end_time = index_list[9]  # 到达时间
        use_time = index_list[10]  # 耗时
        rw = index_list[23]  # 软卧
        yw = index_list[28]  # 硬卧
        yz = index_list[29]  # 硬座
        wz = index_list[26]  # 无座
        dit = {
            'num': num,
            'start': start_time,
            'end': end_time,
            'usetime': use_time,
            'Top': '-',
            'first': '-',
            'second': '-',
            'yz': yz,
            'wz': wz,
            'rw': rw,
            'yw': yw,

        }

    lis.append(dit)

content = pd.DataFrame(lis)
print(content)

 

  • 1
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
爬取12306网站上的信息,需要使用Python的网络爬虫技术。以下是一个简单的爬虫程序,可以爬取12306网站上的火车票信息,并将它们保存到一个Excel文件中: 首先,需要安装一些Python库:requests和beautifulsoup4。可以使用以下命令安装: ``` pip install requests pip install beautifulsoup4 ``` 接下来,可以使用以下代码来爬取12306网站上的火车票信息: ```python import requests from bs4 import BeautifulSoup import openpyxl # 设置要爬取的网页链接 url = "https://kyfw.12306.cn/otn/leftTicket/query?leftTicketDTO.train_date=2021-10-01&leftTicketDTO.from_station=SHH&leftTicketDTO.to_station=BJP&purpose_codes=ADULT" # 设置请求头,模拟浏览器访问 headers = { "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/93.0.4577.63 Safari/537.36" } # 发送GET请求,获取网页内容 response = requests.get(url, headers=headers) # 解析网页内容 soup = BeautifulSoup(response.text, "html.parser") # 从网页中提取火车票信息 rows = [] for tr in soup.select("#queryLeftTable tr[data-traincode]"): row = [] row.append(tr["data-traincode"]) row.append(tr.select_one(".start-t a").text.strip()) row.append(tr.select_one(".end-t a").text.strip()) row.append(tr.select_one(".start-t + td").text.strip()) row.append(tr.select_one(".arrive-t + td").text.strip()) row.append(tr.select_one(".lishi + td").text.strip()) row.append(tr.select_one(".zy_num").text.strip()) row.append(tr.select_one(".ze_num").text.strip()) row.append(tr.select_one(".rw_num").text.strip()) row.append(tr.select_one(".yw_num").text.strip()) row.append(tr.select_one(".rz_num").text.strip()) row.append(tr.select_one(".yz_num").text.strip()) row.append(tr.select_one(".wz_num").text.strip()) rows.append(row) # 将火车票信息保存到Excel文件中 wb = openpyxl.Workbook() ws = wb.active ws.append(["车次", "出发站", "到达站", "出发时间", "到达时间", "历时", "一等座", "二等座", "软卧", "硬卧", "软座", "硬座", "无座"]) for row in rows: ws.append(row) wb.save("tickets.xlsx") ``` 在代码中,首先设置要爬取的网页链接。在本例中,我们要爬取2021年10月1日从上海到北京的火车票信息。然后,设置请求头,模拟浏览器访问。接着,发送GET请求,获取网页内容,并使用BeautifulSoup解析网页内容。最后,从网页中提取火车票信息,并将它们保存到Excel文件中。 需要注意的是,12306网站有反爬措施,如果请求频率过高,可能会被封IP或验证码拦截。所以,在爬取12306网站上的信息时,需要注意控制请求频率,并处理验证码。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

努力学习各种软件

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值