公交线路爬虫

最新推荐文章于 2024-05-08 14:06:39 发布

置顶

NOtargetSaltyfish

最新推荐文章于 2024-05-08 14:06:39 发布

阅读量1.1k

点赞数 2

分类专栏：爬虫文章标签： Python

本文链接：https://blog.csdn.net/NOtargetSaltyfish/article/details/102526158

版权

本文记录了一个Python爬虫项目，该项目爬取了深圳市公交线路及站点信息。利用Requests和BeautifulSoup库，爬取并解析网页，最终将数据保存为CSV文件。爬虫主要针对

和

标签提取信息。

摘要由CSDN通过智能技术生成

最近由于一门课的project需要用到爬虫，因此在网上找了个教程，边看边学，写了一个爬虫，爬取了深圳市公交路线的线路及站点信息。为了防止以后要用到该爬虫或者作进一步的改进时忘记当初的思路，因此写个博客记录一下。

首先，该爬虫所用的库主要是Requests+BeautifulSoup，Requests库提供了获取网页的函数，BeautifulSoup库帮助我们解析网页，能够让我们快速找到返回的网页中所需要的信息。除此之外，还用了os库输出获取的信息，pandas库用来将获取的信息转换成.csv文件所需要的格式。下面是这次爬虫的全部代码：

import requests
from bs4 import BeautifulSoup
import os
import pandas as pd

kv = {'user-agent':'MoMozilla/5.0 (Macintosh; Intel Mac OS X 10_13_6) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/77.0.3865.90 Safari/537.36zilla/5.0'}#headers中的浏览器信息

def getHTMLText(url): #获取网页信息
try:
coo = 'thw=cn; v=0; cna=5X1VFf9fTXQCATGNwJx/mYM8; t=0c7d094551823e1719118c805f9e3725; cookie2=112db93e4fac2151b08a825efb50cff4; _tb_token_=e5b3755745e50; lgc=jhcatharnice; dnk=j

最低0.47元/天解锁文章

NOtargetSaltyfish

关注

2
点赞
踩
11

收藏

觉得还不错? 一键收藏
2
评论
公交线路爬虫

最近由于一门课的project需要用到爬虫，因此在网上找了个教程，边看边学，写了一个爬虫，爬取了深圳市公交路线的线路及站点信息。为了防止以后要用到该爬虫或者作进一步的改进时忘记当初的思路，因此写个博客记录一下。首先，该爬虫所用的库主要是Requests+BeautifulSoup，Requests库提供了获取网页的函数，BeautifulSoup库帮助我们解析网页，...
复制链接

扫一扫