本篇主要记录爬取公交网整个过程,由于这次所用方法虽比较常规,但由于该网站页面内容转码原因以及遍历链接较多,所以小坑还是比较多的,特在此进行记录。
以前爬过百度地图,当时用的是API平台,加上网站比较规范,所以标签节点什么的都比较清晰,但这次由于特殊原因所选择的网站为公交网,废话不多说直接开始吧。
网站主页:www.xbus.cn
操作环境为
-
window 8
-
python 3.6
-
Jupyter Notebook
-
re requests lxml pandas time os urllib
调用的库(这次不用截图了,用代码块更清楚一些):
1import requests
2import csv
3import time
4import pandas as pd
5import re
6from lxml import etree
7import urllib
8import os
9from IPython.core.interactiveshell import InteractiveShell
10InteractiveShell.ast_node_interactivity = 'all'
一、首先打开