原 python爬虫——代码练习郑州公交线路的爬取

最新推荐文章于 2024-06-21 11:19:42 发布

weixin_42248661

最新推荐文章于 2024-06-21 11:19:42 发布

阅读量1.1k

点赞数 2

本文链接：https://blog.csdn.net/weixin_42248661/article/details/80938908

版权

本文介绍了一个使用Python进行网络爬虫的实战案例，目标是抓取郑州公交线路的相关信息，包括线路名、运行时间、票价、更新时间、上行和下行站点等。通过发送HTTP请求，解析HTML内容，利用lxml库提取数据，最终将数据存储到文本文件中。

摘要由CSDN通过智能技术生成

导入请求
从lxml导入etree

＃列表用户保存所有的线路信息
items = []

头= {
'用户代理'：'Mozilla / 5.0（Windows NT 6.1; Win64; x64）AppleWebKit / 537.36（KHTML，像Gecko） Chrome / 66.0.3359.181 Safari / 537.36'，
}

def parse_navigation（）：
url =' http://zhengzhou.8684.cn/'r
= requests.get（url，headers = headers）
＃解析内容，获取所有的导航链接
树= etree.HTML（r.text）
＃查找以数字开头的所有链接
number_href_list = tree.xpath（'// div [@ class =“bus_kt_r1”] / a / @ href'）
＃查找以字母开头的所有链接
char_href_list = tree.xpath（'// div [@ class =“bus_kt_r2”] / a / @ href'）
＃将需要爬取的所有链接返回
返回number_href_list + char_href_list

def parse_erji_route（content）：

最低0.47元/天解锁文章

weixin_42248661

关注

2
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
原 python爬虫——代码练习郑州公交线路的爬取

导入请求从lxml导入etree ＃列表用户保存所有的线路信息items = [] 头= { '用户代理'：'Mozilla / 5.0（Windows NT 6.1; Win64; x64）AppleWebKit / 537.36（KHTML，像Gecko） Chrome / 66.0.3359.181 Safari / 537.36'，} def parse_navigation（）：url ...
复制链接

扫一扫