Python爬虫（一）--城市公交网络站点数据的爬取

打酱油的葫芦娃

已于 2022-01-19 10:36:29 修改

阅读量4.3w

点赞数 12

CC 4.0 BY-SA版权

分类专栏： Python 文章标签： python 爬虫公交网络站点数据

于 2017-04-14 09:42:38 首次发布

本文链接：https://blog.csdn.net/wenwu_both/article/details/70168760

Python 专栏收录该内容

11 篇文章 ¥29.90 ¥99.00

订阅专栏

超级会员免费看

本文介绍了如何使用Python爬虫从8684网站抓取北京市的公交线路信息，包括线路分类、线路网址、线路名称以及具体的站点信息。通过分析网页结构，提取关键数据，并提供完整代码示例，最终将数据保存到txt文件中。

作者：WenWu_Both
出处：http://blog.csdn.net/wenwu_both/article/
版权：本文版权归作者和CSDN博客共有
转载：欢迎转载，但未经作者同意，必须保留此段声必须在文章中给出原文链接；否则必究法律责任

**爬取的站点：**http://beijing.8684.cn/

这里写图片描述

（1）环境配置，直接上代码：

# -*- coding: utf-8 -*-

import requests ##导入requests
from bs4 import BeautifulSoup ##导入bs4中的BeautifulSoup
import os

headers =  {'User-Agent':'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/49.0.2623.221 Safari/537.36 SE 2.X MetaSr 1.0'}
all_url = 'http://beijing.8684.cn'  ##开始的URL地址
start_html = requests.get(all_url, headers=headers) 
#print (start_html.text)
Soup = BeautifulSoup(start_html.text, 'lxml') # 以lxml

了解本专栏